Model AI generasi berikutnya dari Anthropic, Claude 3 Opus, telah mengambil posisi terdepan di papan peringkat Chatbot Arena, mendorong GPT-4 OpenAI ke posisi terbaik kedua.
Sejak diluncurkan tahun lalu, ini adalah pertama kalinya model Claude 3 Opus menduduki puncak daftar Chatbot Arena, yang ketiga versi Claud 3 berada di peringkat 10 besar.
Model Claude 3 memberi kesan
Arena Chatbot LMSYS pemeringkatan menunjukkan bahwa Claude 3 Sonnet menempati posisi keempat bersama dengan Gemini Pro sementara Claude 3 Haiku, yang diluncurkan tahun ini berada di peringkat keenam bersama dengan versi GPT-4 sebelumnya.
Meskipun Claude 3 Haiku mungkin tidak secerdas Sonnet atau Opus, modelnya lebih cepat dan jauh lebih murah, namun โsama bagusnya dengan model yang jauh lebih besar dalam pengujian buta,โ seperti yang terungkap dalam hasil arena.
โClaude 3 Haiku telah mengesankan semua orang, bahkan mencapai level GPT-4 berdasarkan preferensi pengguna kami! Kecepatan, kemampuan, dan durasi konteksnya kini tak tertandingi di pasaran,โ jelas LMSYS.
Menurut Tom's Guide, apa yang membuat Haiku lebih mengesankan adalah โmodel ukuran lokal yang sebanding dengan Gemini Nano.โ Bisa membaca dan memproses penelitian padat informasi makalah dalam waktu kurang dari tiga detik.
Model ini mencapai hasil yang luar biasa bahkan tanpa skala parameter Opus atau model kelas GPT-4 mana pun.
[Pembaruan Arena]
70 ribu+ suara Arena baru๐ณ๏ธ sudah masuk!
Claude-3 Haiku telah mengesankan semua orang, bahkan mencapai level GPT-4 berdasarkan preferensi pengguna kami! Kecepatan, kemampuan & panjang konteksnya kini tak tertandingi di pasar๐ฅ
Congrats @Bayu_joo pada peluncuran Claude-3 yang luar biasa!
Lebih menarikโฆ pic.twitter.com/p1Guuf0B3K
โ lmsys.org (@lmsysorg) 26 Maret, 2024
Mungkinkah ini kesuksesan yang berumur pendek?
Meski terdorong ke posisi kedua, versi GPT-4 OpenAI masih mendominasi 10 besar daftar dengan empat versi.
Menurut Tom's Guide, versi GPT-4 OpenAI dalam berbagai bentuknya telah menduduki posisi teratas โbegitu lama sehingga model lain yang mendekati tolok ukurnya dikenal sebagai model kelas GPT-4.โ
Dengan perkiraan GPT-5 yang โsangat berbedaโ pada tahun ini, Anthropic mungkin tidak akan mempertahankan posisi tersebut terlalu lama, karena kesenjangan skor antara Claude 3 Opus dan GPT-4 sangat sempit.
Meskipun OpenAI masih bungkam mengenai rilis aktualnya GPT-5, pasar sangat menantikan peluncurannya. Model tersebut kabarnya sedang menjalani beberapa hal โpengujian keamanan yang ketatโ dan simulasi serangan yang penting sebelum dirilis.
Arena Chatbot LMSYS
Pemeringkatan ini bergantung pada suara manusia, dibandingkan dengan bentuk tolok ukur model AI lainnya. Dengan yang satu ini, orang-orang mengurutkan output dari dua model berbeda ke prompt yang sama.
Chatbot Arena dijalankan oleh LMSYS dan menampilkan sejumlah model bahasa besar (LLM) yang bertarung dalam โpertempuran acak anonim.โ
Ini pertama kali diluncurkan pada Mei lalu dan telah mengumpulkan lebih dari 400,000 suara dari pengguna yang memiliki model AI dari Google, Anthropic dan OpenAI.
โLMSYS Chatbot Arena adalah platform terbuka crowdsourcing untuk evaluasi LLM. Kami telah mengumpulkan lebih dari 400,000 suara preferensi manusia untuk menentukan peringkat LLM dengan sistem peringkat Elo,โ kata LMSYS.
Sistem Elo banyak digunakan dalam permainan seperti catur untuk mengevaluasi keterampilan relatif seorang pemain. Namun dalam kasus ini, pemeringkatan diterapkan pada chatbot dan โbukan manusia yang menggunakan model tersebutโ.
Baca juga: Microsoft Mengungkapkan PC Surface 'Pertama' dengan Tombol Copilot AI
Kekurangannya
Peringkat Chatbot Arena tidak kekurangan kesalahan. Menurut Tom's Guide, ini tidak mencakup semua model atau versi model yang disertakan, sementara pengguna terkadang memiliki pengalaman buruk dengan GPT-4 yang gagal dimuat. Ini juga mendukung beberapa model yang memiliki akses internet langsung, misalnya Google Gemini Pro.
Sedangkan model lainnya seperti yang berasal dari startup AI Perancis mistral dan perusahaan Tiongkok seperti Alibaba baru-baru ini menduduki posisi teratas di arena ini, selain model sumber terbuka, arena ini masih kehilangan beberapa model terkenal. Misalnya, tidak ada model seperti Google Gemini Pro 1.5
- Konten Bertenaga SEO & Distribusi PR. Dapatkan Amplifikasi Hari Ini.
- PlatoData.Jaringan Vertikal Generatif Ai. Berdayakan Diri Anda. Akses Di Sini.
- PlatoAiStream. Intelijen Web3. Pengetahuan Diperkuat. Akses Di Sini.
- PlatoESG. Karbon, teknologi bersih, energi, Lingkungan Hidup, Tenaga surya, Penanganan limbah. Akses Di Sini.
- PlatoHealth. Kecerdasan Uji Coba Biotek dan Klinis. Akses Di Sini.
- Sumber: https://metanews.com/claude-3-opus-takes-top-spot-on-chatbot-rankings/