Generatiivinen tiedustelu

Tekoälytutkijat arvostelevat nyt vertaisiaan tekoälyn avulla

Treffi:

Tekoälyyn keskittyneet tutkijat ovat ryhtyneet käyttämään generatiivista tekoälyä auttamaan heitä arvioimaan vertaisten koneoppimista.

Ryhmä tutkijoita Stanfordin yliopistosta, NEC Labs Americasta ja UC Santa Barbarasta analysoi äskettäin vertaisarviointeja johtavista tekoälykonferensseista, mukaan lukien ICLR 2024, NeurIPS 2023, CoRL 2023 ja EMNLP 2023.

Kirjoittajat – Weixin Liang, Zachary Izzo, Yaohui Zhang, Haley Lepp, Hancheng Cao, Xuandong Zhao, Lingjiao Chen, Haotian Ye, Sheng Liu, Zhi Huang, Daniel A McFarland ja James Y Zou – raportoivat löydöstään paperi nimeltä "Tekoälyn muokatun sisällön seuranta mittakaavassa: tapaustutkimus ChatGPT:n vaikutuksesta tekoälykonferenssien vertaisarviointiin".

He tekivät tutkimuksen perustuen yleiseen kiinnostukseen ja keskusteluun suuria kielimalleja kohtaan, jotka hallitsivat viime vuonna teknistä keskustelua.

Kirjoittajat havaitsivat pienen mutta johdonmukaisen kasvun näennäisessä LLM-käytössä arvioinneissa, jotka oli lähetetty kolme päivää tai vähemmän ennen määräaikaa

Vaikeus erottaa ihmisen ja koneen kirjoittama teksti ja raportoitu lisääntyminen AI-uutissivustot sai kirjoittajat päättelemään, että on kiireellisesti kehitettävä tapoja arvioida todellisia tietojoukkoja, jotka sisältävät määrittämättömän määrän tekoälyn tuottamaa sisältöä.

Joskus tekoälyn kirjoittaja erottuu joukosta – kuten a paperi Radiology Case Reportsista, jonka otsikko on "Iatrogeenisen porttilaskimon ja maksavaltimovaurion onnistunut hoito 4 kuukauden ikäisellä naispotilaalla: tapausraportti ja kirjallisuuskatsaus".

Tämä sekalainen kohta on hieman lahja: "Yhteenvetona, kahdenvälisen iatrogeenisen hoidon hallinta Olen erittäin pahoillani, mutta minulla ei ole pääsyä reaaliaikaisiin tietoihin tai potilaskohtaisiin tietoihin, koska olen tekoälyn kielimalli .”

Mutta ero ei ole aina ilmeinen, ja aiemmat yritykset kehittää automatisoitu tapa lajitella ihmisen kirjoittamaa tekstiä robo-proosasta eivät ole menneet hyvin. OpenAI esimerkiksi esitteli tekoälyn tekstiluokituksen tätä tarkoitusta varten tammikuussa 2023, mutta suljetaan se kuusi kuukautta myöhemmin "alhaisen tarkkuutensa vuoksi"

Siitä huolimatta, Liang et ai väittävät, että keskittyminen adjektiivien käyttöön tekstissä – sen sijaan, että yritetään arvioida kokonaisia ​​asiakirjoja, kappaleita tai lauseita – johtaa luotettavampiin tuloksiin.

Kirjoittajat ottivat kaksi datajoukkoa eli korpua – yhden ihmisen ja toisen koneiden kirjoittamia. Ja he käyttivät näitä kahta tekstiosaa arvioidakseen tiettyjen adjektiivien esiintymistiheyttä koskevia arvioita – konferenssin tekoälyasiakirjojen vertaisarviointeja.

"[Kaikki laskelmamme riippuvat vain kunkin asiakirjan sisältämistä adjektiiveista", he selittivät. "Löysimme tämän sanaston valinnan olevan vakaampi kuin muiden puheenosien, kuten adverbien, verbien, substantiivien tai kaikkien mahdollisten merkkien, käyttö."

Osoittautuu, että LLM:t käyttävät yleensä adjektiiveja, kuten "kiitettävä", "innovatiivinen" ja "kattava" useammin kuin ihmisten kirjoittajat. Ja tällaiset tilastolliset sanankäytön erot ovat antaneet sisarille mahdollisuuden tunnistaa arvosteluja papereista, joissa LLM-apua pidetään todennäköisenä.

LLM-palautteen 100 suosituimman adjektiivin sanapilvi, jossa fonttikoko osoittaa tiheyden

Sanapilvi 100 suosituinta adjektiivia LLM-palautteessa, fonttikoko ilmaisee tiheyden (klikkaa suuremmaksi)

"Tuloksemme viittaavat siihen, että 6.5–16.9 prosenttia näissä konferensseissa vertaisarviointina toimitetusta tekstistä olisi voitu muuttaa LLM:n toimesta huomattavasti, toisin sanoen oikolukutarkistuksen tai pienten kirjoituspäivitysten lisäksi", kirjoittajat väittivät ja huomauttivat, että työarviot Tieteellinen aikakauslehti Nature ei osoita merkkejä koneellisesta avusta.

Useat tekijät näyttävät korreloivan lisääntyneen LLM-käytön kanssa. Yksi on lähestyvä määräaika: Kirjoittajat havaitsivat pienen mutta johdonmukaisen kasvun näennäisessä LLM-käytössä arvioinneissa, jotka oli lähetetty kolme päivää tai vähemmän ennen määräaikaa.

Tutkijat korostivat, että heidän tarkoituksenaan ei ollut tuomita tekoälyn kirjoitusapua tai väittää, että mikään heidän arvioimistaan ​​papereista olisi kirjoitettu kokonaan tekoälymallilla. Mutta he väittivät, että tiedeyhteisön on oltava avoimempi LLM:ien käytössä.

Ja he väittivät, että tällaiset käytännöt saattavat riistää niiltä, ​​joiden työtä tarkastellaan, monipuolista palautetta asiantuntijoilta. Lisäksi tekoälypalautteen uhkana on homogenisointivaikutus, joka vinoutuu kohti tekoälymallien harhaa ja pois merkityksellisestä oivalluksesta. ®

spot_img

Uusin älykkyys

spot_img