생성 데이터 인텔리전스

과학자들은 ChatGPT를 99% 이상 식별한다고 주장합니다.

시간

학자들은 ChatGPT에서 생성된 과학 논문을 감지하기 위해 기계 학습 알고리즘을 훈련했으며 이 소프트웨어의 정확도가 99% 이상이라고 주장합니다.

제너레이티브 AI 모델은 단기간에 인간의 글을 모방하는 능력이 크게 향상되어 사람들이 텍스트가 기계에 의해 생성되었는지 인간에 의해 생성되었는지 구분하기 어렵습니다. 교사와 강사는 도구를 사용하는 학생들이 표절을 저지르고 있거나 분명히 부정 행위 기계 생성 코드를 사용합니다.

그러나 AI가 생성한 텍스트를 감지하도록 설계된 소프트웨어는 종종 신뢰할 수없는. 전문가들은 이러한 도구를 사용하여 작업을 평가하는 것에 대해 경고했습니다.

캔자스 대학이 이끄는 연구팀은 AI가 생성한 과학 저술, 특히 학술 저널에서 일반적으로 인정하고 출판하는 연구 논문 스타일로 작성된 것을 감지하는 방법을 개발하는 것이 유용할 것이라고 생각했습니다.

"현재 AI 쓰기에는 상당히 눈에 띄는 문제가 있습니다." 말했다 Heather Desaire, 논문 제XNUMX저자 출판 저널 세포는 물리 과학을보고합니다, 그리고 캔자스 대학의 화학 교수는 성명서에서 말했습니다. "가장 큰 문제 중 하나는 여러 소스에서 텍스트를 조합하고 정확성 검사가 전혀 없다는 것입니다. Two Truths and a Lie 게임과 비슷합니다."

Desaire와 그녀의 동료들은 과학자와 ChatGPT가 작성한 논문을 분류하는 알고리즘을 훈련하고 테스트하기 위해 데이터 세트를 컴파일했습니다. 그들은 생물학에서 물리학에 이르기까지 다양한 주제를 나타내는 64개의 "관점" 기사(과학 저널에 게시된 특정 스타일의 기사)를 선택했고 ChatGPT가 동일한 연구를 설명하는 단락을 생성하여 128개의 가짜 기사를 만들도록 했습니다. 총 1,276개의 단락이 AI에 의해 생성되어 분류기를 훈련하는 데 사용되었습니다.

다음으로, 팀은 알고리즘을 테스트하기 위해 각각 30개의 실제 관점 기사와 60개의 ChatGPT 작성 문서를 포함하는 두 개의 데이터 세트를 추가로 편집하여 총 1,210개의 단락을 작성했습니다.

초기 실험에서는 분류기가 인간이 작성한 실제 과학 글과 AI가 생성한 논문을 100% 식별할 수 있었다고 보고했습니다. 그러나 개별 단락 수준의 정확도는 약간 떨어졌으며 92%라고 주장합니다. 

그들은 분류기가 인간과 AI 쓰기 사이의 다양한 문체 차이에 집중하기 때문에 효과적이라고 믿습니다. 과학자들은 기계보다 더 풍부한 어휘를 가지고 더 다양한 단어를 포함하는 더 긴 단락을 쓸 가능성이 더 높습니다. 또한 물음표, 대괄호, 세미콜론과 같은 구두점을 ChatGPT보다 더 자주 사용합니다. 

ChatGPT는 또한 정확도가 낮고 인간에 비해 인물이나 다른 과학자 이름에 대한 구체적인 정보를 제공하지 않습니다. 실제 과학 논문은 또한 "그러나", "하지만", "비록", "이것" 및 "때문에"와 같은 좀 더 모호한 언어를 사용합니다.

그러나 결과는 소금 한 알로 받아들여야 합니다. 대부분 ChatGPT로 작성되었음에도 불구하고 인간이 가볍게 편집한 연구나 다른 과학 저널의 실제 논문에 대해 알고리즘이 얼마나 강력한지는 분명하지 않습니다.

연구원들은 논문에서 "이 작업의 핵심 목표가 개념 증명 연구였기 때문에 작업 범위가 제한적이며 이 접근 방식의 적용 범위를 결정하기 위한 후속 연구가 필요합니다"라고 밝혔습니다. "예를 들어, 테스트 세트의 크기(180개 문서, ~1,200문단)는 작으며 더 큰 테스트 세트는 이 범주의 쓰기 예제에 대한 방법의 정확도를 더 명확하게 정의합니다."

등록 Desaire에게 의견을 요청했습니다. ®

spot_img

최신 인텔리전스

spot_img