Generatywna analiza danych

Naukowcy twierdzą, że ponad 99 procent identyfikacji ChatGPT

Data:

Naukowcy najwyraźniej wyszkolili algorytm uczenia maszynowego do wykrywania artykułów naukowych generowanych przez ChatGPT i twierdzą, że oprogramowanie ma ponad 99% dokładności.

Modele generatywne AI radykalnie poprawiły się w zakresie naśladowania pisma ludzkiego w krótkim czasie, przez co ludziom trudno jest stwierdzić, czy tekst został stworzony przez maszynę, czy przez człowieka. Nauczyciele i wykładowcy wyrazili obawy, że uczniowie korzystający z tych narzędzi popełniają lub pozornie plagiat oszukiwanie przy użyciu kodu generowanego maszynowo.

Jednak oprogramowanie zaprojektowane do wykrywania tekstu generowanego przez sztuczną inteligencję często tak jest niepewny. Eksperci ostrzegają przed używaniem tych narzędzi do oceny pracy.

Zespół naukowców pod kierownictwem Uniwersytetu w Kansas uznał, że przydatne byłoby opracowanie sposobu wykrywania tekstów naukowych generowanych przez sztuczną inteligencję – szczególnie napisanych w stylu artykułów naukowych zwykle akceptowanych i publikowanych w czasopismach akademickich.

„W tej chwili istnieją dość rażące problemy z pisaniem AI” powiedziany Heather Desaire, pierwsza autorka artykułu opublikowany w dzienniku Komórka raportuje nauki fizycznei profesor chemii na Uniwersytecie w Kansas w oświadczeniu. „Jednym z największych problemów jest to, że składa tekst z wielu źródeł i nie ma żadnej kontroli dokładności – to trochę jak gra Dwie prawdy i kłamstwo”.

Desaire i jej współpracownicy skompilowali zbiory danych, aby wytrenować i przetestować algorytm klasyfikacji artykułów napisanych przez naukowców i ChatGPT. Wybrali 64 artykuły „perspektywy” – specyficzny styl artykułów publikowanych w czasopismach naukowych – reprezentujących różnorodny zakres tematów, od biologii po fizykę, i skłoniły ChatGPT do wygenerowania akapitów opisujących te same badania w celu stworzenia 128 fałszywych artykułów. Sztuczna inteligencja wygenerowała łącznie 1,276 akapitów, które wykorzystano do szkolenia klasyfikatora.

Następnie zespół skompilował dwa kolejne zbiory danych, każdy zawierający 30 artykułów dotyczących prawdziwych perspektyw i 60 artykułów napisanych przez ChatGPT, łącznie 1,210 akapitów w celu przetestowania algorytmu.

Wstępne eksperymenty wykazały, że klasyfikator w 100% przypadków był w stanie odróżnić pisma naukowe pochodzące od ludzi od artykułów generowanych przez sztuczną inteligencję. Jednak dokładność na poziomie poszczególnych akapitów nieznacznie spadła – twierdzi się, że do 92 procent. 

Wierzą, że ich klasyfikator jest skuteczny, ponieważ uwzględnia szereg różnic stylistycznych między pismem stworzonym przez ludzi i sztuczną inteligencję. Naukowcy częściej niż maszyny dysponują bogatszym słownictwem i piszą dłuższe akapity zawierające bardziej zróżnicowane słowa. Częściej niż ChatGPT używają również znaków interpunkcyjnych, takich jak znaki zapytania, nawiasy i średniki, z wyjątkiem znaków mowy używanych w cudzysłowie. 

ChatGPT jest również mniej precyzyjny i nie dostarcza konkretnych informacji na temat liczb ani nazwisk innych naukowców w porównaniu z ludźmi. W artykułach naukowych używa się również bardziej dwuznacznego języka – takiego jak „jednak”, „ale”, „chociaż”, a także „to” i „ponieważ”.

Wyniki należy jednak traktować z przymrużeniem oka. Nie jest jasne, jak odporny jest algorytm na badania, które zostały lekko zredagowane przez ludzi, mimo że zostały napisane głównie przez ChatGPT, lub na rzeczywiste artykuły z innych czasopism naukowych.

„Ponieważ kluczowym celem tej pracy było sprawdzenie słuszności koncepcji, zakres prac był ograniczony i potrzebne są dalsze badania, aby określić zakres zastosowania tego podejścia” – napisali naukowcy w swoim artykule. „Na przykład rozmiar zestawu testowego (180 dokumentów, ~1,200 akapitów) jest niewielki, a większy zestaw testowy lepiej określiłby dokładność metody w tej kategorii przykładów pisemnych”.

Rejestr poprosił Desaire o komentarz. ®

spot_img

Najnowsza inteligencja

spot_img