Claude 3 Opus Menempati Posisi Teratas Pada Peringkat Chatbot

Model AI generasi berikutnya dari Anthropic, Claude 3 Opus, telah mengambil posisi terdepan di papan peringkat Chatbot Arena, mendorong GPT-4 OpenAI ke posisi terbaik kedua.

Sejak diluncurkan tahun lalu, ini adalah pertama kalinya model Claude 3 Opus menduduki puncak daftar Chatbot Arena, yang ketiga versi Claud 3 berada di peringkat 10 besar.

Model Claude 3 memberi kesan

Arena Chatbot LMSYS pemeringkatan menunjukkan bahwa Claude 3 Sonnet menempati posisi keempat bersama dengan Gemini Pro sementara Claude 3 Haiku, yang diluncurkan tahun ini berada di peringkat keenam bersama dengan versi GPT-4 sebelumnya.

Meskipun Claude 3 Haiku mungkin tidak secerdas Sonnet atau Opus, modelnya lebih cepat dan jauh lebih murah, namun “sama bagusnya dengan model yang jauh lebih besar dalam pengujian buta,” seperti yang terungkap dalam hasil arena.

“Claude 3 Haiku telah mengesankan semua orang, bahkan mencapai level GPT-4 berdasarkan preferensi pengguna kami! Kecepatan, kemampuan, dan durasi konteksnya kini tak tertandingi di pasaran,” jelas LMSYS.

Menurut Tom's Guide, apa yang membuat Haiku lebih mengesankan adalah “model ukuran lokal yang sebanding dengan Gemini Nano.” Bisa membaca dan memproses penelitian padat informasi makalah dalam waktu kurang dari tiga detik.

Model ini mencapai hasil yang luar biasa bahkan tanpa skala parameter Opus atau model kelas GPT-4 mana pun.

[Pembaruan Arena]

70 ribu+ suara Arena baru🗳️ sudah masuk!

Claude-3 Haiku telah mengesankan semua orang, bahkan mencapai level GPT-4 berdasarkan preferensi pengguna kami! Kecepatan, kemampuan & panjang konteksnya kini tak tertandingi di pasar🔥

Congrats @Bayu_joo pada peluncuran Claude-3 yang luar biasa!

Lebih menarik… pic.twitter.com/p1Guuf0B3K

— lmsys.org (@lmsysorg) 26 Maret, 2024

Mungkinkah ini kesuksesan yang berumur pendek?

Meski terdorong ke posisi kedua, versi GPT-4 OpenAI masih mendominasi 10 besar daftar dengan empat versi.

Menurut Tom's Guide, versi GPT-4 OpenAI dalam berbagai bentuknya telah menduduki posisi teratas “begitu lama sehingga model lain yang mendekati tolok ukurnya dikenal sebagai model kelas GPT-4.”

Dengan perkiraan GPT-5 yang “sangat berbeda” pada tahun ini, Anthropic mungkin tidak akan mempertahankan posisi tersebut terlalu lama, karena kesenjangan skor antara Claude 3 Opus dan GPT-4 sangat sempit.

Meskipun OpenAI masih bungkam mengenai rilis aktualnya GPT-5, pasar sangat menantikan peluncurannya. Model tersebut kabarnya sedang menjalani beberapa hal “pengujian keamanan yang ketat” dan simulasi serangan yang penting sebelum dirilis.

Arena Chatbot LMSYS

Pemeringkatan ini bergantung pada suara manusia, dibandingkan dengan bentuk tolok ukur model AI lainnya. Dengan yang satu ini, orang-orang mengurutkan output dari dua model berbeda ke prompt yang sama.

Chatbot Arena dijalankan oleh LMSYS dan menampilkan sejumlah model bahasa besar (LLM) yang bertarung dalam “pertempuran acak anonim.”

Ini pertama kali diluncurkan pada Mei lalu dan telah mengumpulkan lebih dari 400,000 suara dari pengguna yang memiliki model AI dari Google, Anthropic dan OpenAI.

“LMSYS Chatbot Arena adalah platform terbuka crowdsourcing untuk evaluasi LLM. Kami telah mengumpulkan lebih dari 400,000 suara preferensi manusia untuk menentukan peringkat LLM dengan sistem peringkat Elo,” kata LMSYS.

Sistem Elo banyak digunakan dalam permainan seperti catur untuk mengevaluasi keterampilan relatif seorang pemain. Namun dalam kasus ini, pemeringkatan diterapkan pada chatbot dan “bukan manusia yang menggunakan model tersebut”.

Kekurangannya

Peringkat Chatbot Arena tidak kekurangan kesalahan. Menurut Tom's Guide, ini tidak mencakup semua model atau versi model yang disertakan, sementara pengguna terkadang memiliki pengalaman buruk dengan GPT-4 yang gagal dimuat. Ini juga mendukung beberapa model yang memiliki akses internet langsung, misalnya Google Gemini Pro.

Sedangkan model lainnya seperti yang berasal dari startup AI Perancis mistral dan perusahaan Tiongkok seperti Alibaba baru-baru ini menduduki posisi teratas di arena ini, selain model sumber terbuka, arena ini masih kehilangan beberapa model terkenal. Misalnya, tidak ada model seperti Google Gemini Pro 1.5

Konten Bertenaga SEO & Distribusi PR. Dapatkan Amplifikasi Hari Ini.
PlatoData.Jaringan Vertikal Generatif Ai. Berdayakan Diri Anda. Akses Di Sini.
PlatoAiStream. Intelijen Web3. Pengetahuan Diperkuat. Akses Di Sini.
PlatoESG. Karbon, teknologi bersih, energi, Lingkungan Hidup, Tenaga surya, Penanganan limbah. Akses Di Sini.
PlatoHealth. Kecerdasan Uji Coba Biotek dan Klinis. Akses Di Sini.
Sumber: https://metanews.com/claude-3-opus-takes-top-spot-on-chatbot-rankings/

Kecerdasan Data Generatif

Claude 3 Opus Mengambil Posisi Teratas di Peringkat Chatbot

Model Claude 3 memberi kesan

Mungkinkah ini kesuksesan yang berumur pendek?

Arena Chatbot LMSYS

Kekurangannya

Undang-Undang Baru Di Oklahoma Melindungi Hak Warga Negara Untuk Memiliki Bitcoin – CryptoInfoNet

Promosi 'Trade to Mine' Baru dari Bitget Memungkinkan Trader Menyimpan Semua Biaya Perdagangan

Intelijen Terbaru

Wondra: Mendefinisikan Ulang Cetak Biru Untuk Metaverse 2.0 – CryptoInfoNet

Pakar Mengatakan Harga Bitcoin Telah Mencapai Puncaknya Dan Berada Dalam Penurunan Eksponensial, Mengapa Ini Bukan Hal Yang Buruk

BlockDAG Unggul Dengan Proposisi $1 Sehari Dengan Aplikasi Penambangan Seluler X1, Melampaui Antusiasme Pasar ETH & TRON

Paus Membeli 237B SHIB, Ethereum Classic Naik, Analis Memilih Token Permainan Baru untuk Keuntungan Besar

Pengacara Coinbase Teratas Menegaskan Bahwa Ethereum Adalah Komoditas Saat Consensys Meluncurkan Gugatan Terkait ETH Terhadap SEC – The Daily Hodl

JPMorgan Chase dan Bank of America Menderita Kerugian $4,500,000,000 Karena 'Utang yang Tidak Dapat Dipulihkan' Melonjak: Laporan – The Daily Hodl

Hubungi kami