Claude AI ของ Anthropic ล้มล้าง ChatGPT บนกระดานผู้นำ Chatbot Arena - ถอดรหัส

ในขณะที่ ChatGPT จาก Open AI มีส่วนแบ่งความคิดกระแสหลักที่ใหญ่ที่สุดในบรรดาเครื่องมือ AI เชิงสร้างสรรค์ทั้งหมด แต่จุดสูงสุดก็ถูกขโมยไปโดย Claude 3 Opus ระดับแนวหน้าจาก Anthropic คู่แข่งตลอดกาลบนกระดานผู้นำยอดนิยมที่รวบรวมมวลชนซึ่งใช้โดยนักวิจัย AI

การขึ้นสู่ตำแหน่งในการจัดอันดับ Chatbot Arena ของ Claude นับเป็นครั้งแรกที่ GPT-4 ของ OpenAI ซึ่งขับเคลื่อน ChatGPT Plus ได้ถูกปลดออกจากตำแหน่งนับตั้งแต่ปรากฏตัวครั้งแรกบนกระดานผู้นำในเดือนพฤษภาคมปีที่แล้ว

Chatbot Arena ดำเนินการโดย Large Model Systems Organisation (LMSYS ORG) ซึ่งเป็นองค์กรวิจัยที่อุทิศให้กับโมเดลแบบเปิดที่สนับสนุนการทำงานร่วมกันระหว่างนักศึกษาและคณาจารย์ที่ University of California, Berkeley, UC San Diego และ Carnegie Mellon University แพลตฟอร์มนี้นำเสนอโมเดลภาษาสองแบบที่ไม่มีป้ายกำกับให้กับผู้ใช้ และขอให้พวกเขาให้คะแนนว่าโมเดลภาษาใดทำงานได้ดีกว่าตามเกณฑ์ที่พวกเขาเห็นว่าเหมาะสม

หลังจากรวบรวมการเปรียบเทียบเชิงอัตนัยนับพันรายการ Chatbot Arena จะคำนวณโมเดลที่ "ดีที่สุด" สำหรับลีดเดอร์บอร์ด และอัปเดตเมื่อเวลาผ่านไป

แนวทางแบบอัตนัยซึ่งอิงตามรสนิยมส่วนตัวที่แตกต่างกันของผู้เข้าร่วมคือสิ่งที่ทำให้ Chatbot Arena แตกต่างจากเกณฑ์มาตรฐาน AI อื่นๆ ผู้ฝึกสอนโมเดลไม่สามารถ "โกง" ด้วยการปรับแต่งโมเดลของตนให้เอาชนะอัลกอริธึมได้ เช่นเดียวกับที่ใช้การวัดประสิทธิภาพเชิงปริมาณ ด้วยการวัดสิ่งที่ผู้คนชื่นชอบ Chatbot Arena จึงเป็นแหล่งข้อมูลเชิงคุณภาพที่มีคุณค่าสำหรับนักวิจัย AI

แพลตฟอร์มรวบรวมคำติชมของผู้ใช้และดำเนินการผ่าน แบบจำลองทางสถิติของแบรดลีย์-เทอร์รี่ เพื่อคาดการณ์ความเป็นไปได้ที่โมเดลใดโมเดลหนึ่งจะมีประสิทธิภาพเหนือกว่าโมเดลอื่นๆ ในการแข่งขันโดยตรง วิธีนี้ ช่วยให้สามารถสร้างสถิติที่ครอบคลุม รวมถึงช่วงความเชื่อมั่นสำหรับการประมาณระดับ Elo ซึ่งเป็นเทคนิคเดียวกับที่ใช้ในการวัดทักษะของผู้เล่นหมากรุก

*LLM 10 อันดับแรกที่ได้รับการจัดอันดับโดย Chatbot Arena ภาพ: กอดหน้า*

การขึ้นสู่จุดสูงสุดของ Claude 3 Opus ไม่ได้เป็นเพียงการพัฒนาที่สำคัญบนกระดานผู้นำเท่านั้น Claude 3 Sonnet (รุ่นขนาดกลางให้บริการฟรี) และ Claude 3 Haiku (รุ่นเล็กกว่าและเร็วกว่า) ซึ่งพัฒนาโดย Anthropic เช่นกัน อยู่อันดับที่ 4 และ 6 ตามลำดับ

บอร์ดผู้นำประกอบด้วย GPT-4 เวอร์ชันต่างๆ เช่น GPT-4-0314 (เวอร์ชัน "ดั้งเดิม" ของ GPT-4 ตั้งแต่เดือนมีนาคม 2023), GPT-4-0613, GPT-4-1106-preview และ GPT-4 -0125-preview (GPT-4 Turbo รุ่นล่าสุดพร้อมใช้งานผ่าน API ตั้งแต่เดือนมกราคม 2024) จากการจัดอันดับ Sonnet และ Haiku ต่างก็ดีกว่า GPT-4 ดั้งเดิม โดย Sonnet ยังแซงหน้าเวอร์ชันปรับแต่งที่เปิดตัวโดย OpenAI ในเดือนมิถุนายน 2023

นอกจากนี้ยังหมายความว่า น่าเศร้าที่ปัจจุบันมี LLM โอเพ่นซอร์สเพียงแห่งเดียวที่อยู่ใน 10 อันดับแรก: Qwen โดยมี Starling 7b และ Mixtral 8x7B เป็นรุ่นเปิดเพียงรุ่นเดียวใน 20 อันดับแรก

ข้อดีประการหนึ่งของ Claude เหนือ GPT-4 คือความจุโทเค็นบริบทและความสามารถในการดึงข้อมูล Claude 3 Opus เวอร์ชันสาธารณะรองรับได้มากกว่า 200 รายการ และองค์กรอ้างว่ามีเวอร์ชันจำกัดที่สามารถจัดการโทเค็นได้ 1 ล้านโทเค็นด้วยอัตราการดึงข้อมูลเกือบสมบูรณ์แบบ ซึ่งหมายความว่า Claude สามารถเข้าใจข้อความแจ้งที่ยาวขึ้นและเก็บรักษาข้อมูลได้อย่างมีประสิทธิภาพมากกว่า เปรียบเทียบกับ GPT-4 Turboซึ่งจัดการโทเค็น 128K และสูญเสียความสามารถในการดึงข้อมูลพร้อมกับข้อความแจ้งที่ยาว

เรียกคืนความแม่นยำของ Claude 3 Opus กับ GPT-4 Turbo รูปภาพจาก Decrypt โดยใช้ข้อมูลจาก Anthropic และ Greg Kamradt

ของ Google ราศีเมถุนขั้นสูง ยังได้รับความสนใจจากผู้ช่วย AI อีกด้วย บริษัทเสนอแผนที่รวมพื้นที่เก็บข้อมูล 2TB และความสามารถ AI ในชุดผลิตภัณฑ์ของ Google ในราคาเดียวกับการสมัครสมาชิก Chat GPT Plus ($20 ต่อเดือน)

Gemini Pro ที่แจกฟรีอยู่อันดับที่ 4 ระหว่าง GPT-4 Turbo และ Claude 3 Sonnet นาฬิกา Gemini Ultra รุ่นท็อปสุดไม่พร้อมสำหรับการทดสอบและยังไม่มีการจัดอันดับ

แก้ไขโดย ไรอัน โอซาว่า.

ติดตามข่าวสาร crypto รับการอัปเดตทุกวันในกล่องจดหมายของคุณ

เนื้อหาที่ขับเคลื่อนด้วย SEO และการเผยแพร่ประชาสัมพันธ์ รับการขยายวันนี้
PlatoData.Network Vertical Generative Ai เพิ่มพลังให้กับตัวเอง เข้าถึงได้ที่นี่.
เพลโตไอสตรีม. Web3 อัจฉริยะ ขยายความรู้ เข้าถึงได้ที่นี่.
เพลโตESG. คาร์บอน, คลีนเทค, พลังงาน, สิ่งแวดล้อม แสงอาทิตย์, การจัดการของเสีย. เข้าถึงได้ที่นี่.
เพลโตสุขภาพ เทคโนโลยีชีวภาพและข่าวกรองการทดลองทางคลินิก เข้าถึงได้ที่นี่.
ที่มา: https://decrypt.co/223787/anthropic-claude-ai-versus-openai-chatgpt-llm-arena-ranking

ความฉลาดทางข้อมูลเชิงกำเนิด

Claude AI ของ Anthropic ล้มล้าง ChatGPT บนกระดานผู้นำ Chatbot Arena – ถอดรหัส

ติดตามข่าวสาร crypto รับการอัปเดตทุกวันในกล่องจดหมายของคุณ

DOJ โต้แย้งลักษณะเฉพาะของการดำเนินการเงินสดทอร์นาโดของ Roman Storm ในการยื่นฟ้องใหม่

ยอดขาย Crypto 5 อันดับแรก: BDAG เป็นผู้นำกลุ่มด้วยศักยภาพ ROI 30,000x

ข่าวกรองล่าสุด

Forbes เปิดตัว 'ซอมบี้' Crypto 20 ตัว ประกาศ Ripple และ XRP ในหมู่ Undead

Consob หน่วยงานเฝ้าระวังของอิตาลี แบนเว็บไซต์ซื้อขาย Forex และ Cryptocurrency เพิ่มเติม - CryptoInfoNet

มาตรวัดอัตราเงินเฟ้อของ Fed ร้อนแรงขึ้น การปรับลดอัตราดอกเบี้ยถูกระงับเนื่องจาก Bitcoin และหุ้นร่วงลง

สำรวจ 6 Cryptos ยอดนิยมในปี 2024: BlockDAG เป็นผู้นำด้วยศักยภาพ ROI ที่ไม่เคยมีมาก่อน

ETF สปอต Ethereum ของ Franklin Templeton จดทะเบียนใน DTCC

Bitcoin Bloodbath: นักวิเคราะห์ Crypto พบ 'Death Cross' หลังจากราคาลดลง 8%

แชทกับเรา