ความฉลาดทางข้อมูลเชิงกำเนิด

Claude AI ของ Anthropic ล้มล้าง ChatGPT บนกระดานผู้นำ Chatbot Arena – ถอดรหัส

วันที่:

ในขณะที่ ChatGPT จาก Open AI มีส่วนแบ่งความคิดกระแสหลักที่ใหญ่ที่สุดในบรรดาเครื่องมือ AI เชิงสร้างสรรค์ทั้งหมด แต่จุดสูงสุดก็ถูกขโมยไปโดย Claude 3 Opus ระดับแนวหน้าจาก Anthropic คู่แข่งตลอดกาลบนกระดานผู้นำยอดนิยมที่รวบรวมมวลชนซึ่งใช้โดยนักวิจัย AI

การขึ้นสู่ตำแหน่งในการจัดอันดับ Chatbot Arena ของ Claude นับเป็นครั้งแรกที่ GPT-4 ของ OpenAI ซึ่งขับเคลื่อน ChatGPT Plus ได้ถูกปลดออกจากตำแหน่งนับตั้งแต่ปรากฏตัวครั้งแรกบนกระดานผู้นำในเดือนพฤษภาคมปีที่แล้ว

Chatbot Arena ดำเนินการโดย Large Model Systems Organisation (LMSYS ORG) ซึ่งเป็นองค์กรวิจัยที่อุทิศให้กับโมเดลแบบเปิดที่สนับสนุนการทำงานร่วมกันระหว่างนักศึกษาและคณาจารย์ที่ University of California, Berkeley, UC San Diego และ Carnegie Mellon University แพลตฟอร์มนี้นำเสนอโมเดลภาษาสองแบบที่ไม่มีป้ายกำกับให้กับผู้ใช้ และขอให้พวกเขาให้คะแนนว่าโมเดลภาษาใดทำงานได้ดีกว่าตามเกณฑ์ที่พวกเขาเห็นว่าเหมาะสม

หลังจากรวบรวมการเปรียบเทียบเชิงอัตนัยนับพันรายการ Chatbot Arena จะคำนวณโมเดลที่ "ดีที่สุด" สำหรับลีดเดอร์บอร์ด และอัปเดตเมื่อเวลาผ่านไป

แนวทางแบบอัตนัยซึ่งอิงตามรสนิยมส่วนตัวที่แตกต่างกันของผู้เข้าร่วมคือสิ่งที่ทำให้ Chatbot Arena แตกต่างจากเกณฑ์มาตรฐาน AI อื่นๆ ผู้ฝึกสอนโมเดลไม่สามารถ "โกง" ด้วยการปรับแต่งโมเดลของตนให้เอาชนะอัลกอริธึมได้ เช่นเดียวกับที่ใช้การวัดประสิทธิภาพเชิงปริมาณ ด้วยการวัดสิ่งที่ผู้คนชื่นชอบ Chatbot Arena จึงเป็นแหล่งข้อมูลเชิงคุณภาพที่มีคุณค่าสำหรับนักวิจัย AI

แพลตฟอร์มรวบรวมคำติชมของผู้ใช้และดำเนินการผ่าน แบบจำลองทางสถิติของแบรดลีย์-เทอร์รี่ เพื่อคาดการณ์ความเป็นไปได้ที่โมเดลใดโมเดลหนึ่งจะมีประสิทธิภาพเหนือกว่าโมเดลอื่นๆ ในการแข่งขันโดยตรง วิธีนี้ ช่วยให้สามารถสร้างสถิติที่ครอบคลุม รวมถึงช่วงความเชื่อมั่นสำหรับการประมาณระดับ Elo ซึ่งเป็นเทคนิคเดียวกับที่ใช้ในการวัดทักษะของผู้เล่นหมากรุก

LLM 10 อันดับแรกที่ได้รับการจัดอันดับโดย Chatbot Arena ภาพ: กอดหน้า
LLM 10 อันดับแรกที่ได้รับการจัดอันดับโดย Chatbot Arena ภาพ: กอดหน้า

การขึ้นสู่จุดสูงสุดของ Claude 3 Opus ไม่ได้เป็นเพียงการพัฒนาที่สำคัญบนกระดานผู้นำเท่านั้น Claude 3 Sonnet (รุ่นขนาดกลางให้บริการฟรี) และ Claude 3 Haiku (รุ่นเล็กกว่าและเร็วกว่า) ซึ่งพัฒนาโดย Anthropic เช่นกัน อยู่อันดับที่ 4 และ 6 ตามลำดับ

บอร์ดผู้นำประกอบด้วย GPT-4 เวอร์ชันต่างๆ เช่น GPT-4-0314 (เวอร์ชัน "ดั้งเดิม" ของ GPT-4 ตั้งแต่เดือนมีนาคม 2023), GPT-4-0613, GPT-4-1106-preview และ GPT-4 -0125-preview (GPT-4 Turbo รุ่นล่าสุดพร้อมใช้งานผ่าน API ตั้งแต่เดือนมกราคม 2024) จากการจัดอันดับ Sonnet และ Haiku ต่างก็ดีกว่า GPT-4 ดั้งเดิม โดย Sonnet ยังแซงหน้าเวอร์ชันปรับแต่งที่เปิดตัวโดย OpenAI ในเดือนมิถุนายน 2023

นอกจากนี้ยังหมายความว่า น่าเศร้าที่ปัจจุบันมี LLM โอเพ่นซอร์สเพียงแห่งเดียวที่อยู่ใน 10 อันดับแรก: Qwen โดยมี Starling 7b และ Mixtral 8x7B เป็นรุ่นเปิดเพียงรุ่นเดียวใน 20 อันดับแรก

ข้อดีประการหนึ่งของ Claude เหนือ GPT-4 คือความจุโทเค็นบริบทและความสามารถในการดึงข้อมูล Claude 3 Opus เวอร์ชันสาธารณะรองรับได้มากกว่า 200 รายการ และองค์กรอ้างว่ามีเวอร์ชันจำกัดที่สามารถจัดการโทเค็นได้ 1 ล้านโทเค็นด้วยอัตราการดึงข้อมูลเกือบสมบูรณ์แบบ ซึ่งหมายความว่า Claude สามารถเข้าใจข้อความแจ้งที่ยาวขึ้นและเก็บรักษาข้อมูลได้อย่างมีประสิทธิภาพมากกว่า เปรียบเทียบกับ GPT-4 Turboซึ่งจัดการโทเค็น 128K และสูญเสียความสามารถในการดึงข้อมูลพร้อมกับข้อความแจ้งที่ยาว

เรียกคืนความแม่นยำของ Claude 3 Opus กับ GPT-4 Turbo รูปภาพจาก Decrypt โดยใช้ข้อมูลจาก Anthropic และ Greg Kamradt
เรียกคืนความแม่นยำของ Claude 3 Opus กับ GPT-4 Turbo รูปภาพจาก Decrypt โดยใช้ข้อมูลจาก Anthropic และ Greg Kamradt

ของ Google ราศีเมถุนขั้นสูง ยังได้รับความสนใจจากผู้ช่วย AI อีกด้วย บริษัทเสนอแผนที่รวมพื้นที่เก็บข้อมูล 2TB และความสามารถ AI ในชุดผลิตภัณฑ์ของ Google ในราคาเดียวกับการสมัครสมาชิก Chat GPT Plus ($20 ต่อเดือน)

Gemini Pro ที่แจกฟรีอยู่อันดับที่ 4 ระหว่าง GPT-4 Turbo และ Claude 3 Sonnet นาฬิกา Gemini Ultra รุ่นท็อปสุดไม่พร้อมสำหรับการทดสอบและยังไม่มีการจัดอันดับ

แก้ไขโดย ไรอัน โอซาว่า.

ติดตามข่าวสาร crypto รับการอัปเดตทุกวันในกล่องจดหมายของคุณ

จุด_img

ข่าวกรองล่าสุด

จุด_img

แชทกับเรา

สวัสดี! ฉันจะช่วยคุณได้อย่างไร?