Claude AI dari Anthropic Menggulingkan ChatGPT Di Papan Peringkat Chatbot Arena - Dekripsi

Meskipun ChatGPT dari Open AI menikmati mindshare arus utama terbesar di antara semua alat AI generatif, posisi teratasnya telah direbut oleh Claude 3 Opus terbaik dari pesaing abadi Anthropic di papan peringkat crowdsourced populer yang digunakan oleh para peneliti AI.

Kenaikan Claude dalam peringkat Chatbot Arena menandai pertama kalinya GPT-4 OpenAI, yang mendukung ChatGPT Plus, dicopot sejak pertama kali muncul di papan peringkat pada Mei tahun lalu.

Chatbot Arena dijalankan oleh Large Model Systems Organization (LMSYS ORG), sebuah organisasi penelitian yang didedikasikan untuk model terbuka yang mendukung kolaborasi antara mahasiswa dan fakultas di University of California, Berkeley, UC San Diego, dan Carnegie Mellon University. Platform ini memberi pengguna dua model bahasa yang tidak diberi label dan meminta mereka menilai mana yang berkinerja lebih baik berdasarkan kriteria apa pun yang mereka anggap cocok.

Setelah mengumpulkan ribuan perbandingan subjektif, Chatbot Arena menghitung model “terbaik” untuk papan peringkat, dan memperbaruinya seiring waktu.

Pendekatan subjektif tersebut, berdasarkan selera pribadi peserta yang berbeda-beda, inilah yang membedakan Chatbot Arena dari tolok ukur AI lainnya. Pelatih model tidak dapat melakukan “kecurangan” dengan menyesuaikan modelnya agar dapat mengalahkan algoritme, seperti halnya dengan tolok ukur kuantitatif. Dengan mengukur apa yang disukai orang, Chatbot Arena adalah sumber daya kualitatif yang berharga bagi para peneliti AI.

Platform ini mengumpulkan umpan balik pengguna dan menjalankannya melalui Model statistik Bradley-Terry untuk memprediksi kemungkinan model tertentu mengungguli model lain dalam persaingan langsung. Pendekatan ini memungkinkan pembuatan statistik komprehensif, termasuk rentang interval kepercayaan untuk perkiraan peringkat Elo—teknik yang sama yang digunakan untuk mengukur keterampilan pemain catur.

*10 LLM teratas diberi peringkat oleh Chatbot Arena. Gambar: Wajah Memeluk*

Naiknya Claude 3 Opus ke puncak bukanlah satu-satunya perkembangan signifikan di papan peringkat. Claude 3 Sonnet (model ukuran sedang tersedia gratis) dan Claude 3 Haiku (model lebih kecil dan lebih cepat), juga dikembangkan oleh Anthropic, saat ini masing-masing berada di posisi ke-4 dan ke-6.

Papan peringkat mencakup berbagai versi GPT-4, seperti GPT-4-0314 (versi “asli” GPT-4 mulai Maret 2023), GPT-4-0613, GPT-4-1106-pratinjau, dan GPT-4 -0125-pratinjau (model GPT-4 Turbo terbaru tersedia melalui API mulai Januari 2024). Menurut peringkat tersebut, Sonnet dan Haiku keduanya lebih baik daripada GPT-4 asli dan Sonnet juga melampaui versi penyesuaian yang diluncurkan oleh OpenAI pada Juni 2023.

Ini juga berarti bahwa, sayangnya, hanya ada satu LLM sumber terbuka yang saat ini berada di 10 besar: Qwen, dengan Starling 7b dan Mixtral 8x7B menjadi satu-satunya model terbuka lainnya yang masuk dalam 20 besar.

Salah satu keunggulan Claude dibandingkan GPT-4 adalah kapasitas konteks token dan kemampuan pengambilannya. Versi publik dari Claude 3 Opus menangani lebih dari 200 ribu—dan organisasi tersebut mengklaim memiliki versi terbatas yang mampu menangani 1 juta token dengan tingkat pengambilan yang hampir sempurna. Ini berarti Claude dapat memahami perintah yang lebih panjang dan menyimpan informasi dengan lebih efektif daripada dibandingkan dengan GPT-4 Turbo, yang menangani 128 ribu token dan kehilangan kemampuan pengambilannya dengan perintah yang panjang.

*Ingat kembali keakuratan Claude 3 Opus vs GPT-4 Turbo. Gambar dari Decrypt menggunakan data dari Anthropic dan Greg Kamradt.*

Google Gemini Tingkat Lanjut juga telah mendapatkan daya tarik di bidang asisten AI. Perusahaan menawarkan paket yang mencakup penyimpanan 2TB dan kemampuan AI dalam rangkaian produk Google dengan harga yang sama dengan langganan Chat GPT Plus ($20 per bulan).

Gemini Pro gratis saat ini berada di peringkat nomor 4, antara GPT-4 Turbo dan Claude 3 Sonnet. Model Gemini Ultra terbaik tidak tersedia untuk pengujian dan belum ditampilkan dalam pemeringkatan.

Diedit oleh Ryan Ozawa.

Tetap di atas berita crypto, dapatkan pembaruan harian di kotak masuk Anda.

Konten Bertenaga SEO & Distribusi PR. Dapatkan Amplifikasi Hari Ini.
PlatoData.Jaringan Vertikal Generatif Ai. Berdayakan Diri Anda. Akses Di Sini.
PlatoAiStream. Intelijen Web3. Pengetahuan Diperkuat. Akses Di Sini.
PlatoESG. Karbon, teknologi bersih, energi, Lingkungan Hidup, Tenaga surya, Penanganan limbah. Akses Di Sini.
PlatoHealth. Kecerdasan Uji Coba Biotek dan Klinis. Akses Di Sini.
Sumber: https://decrypt.co/223787/anthropic-claude-ai-versus-openai-chatgpt-llm-arena-ranking

Kecerdasan Data Generatif

Claude AI Anthropic Menggulingkan ChatGPT di Papan Peringkat Chatbot Arena – Dekripsi

Tetap di atas berita crypto, dapatkan pembaruan harian di kotak masuk Anda.

DOJ Membantah Karakterisasi Operasi Tunai Tornado Roman Storm dalam Pengajuan Baru

5 Prapenjualan Kripto Teratas: BDAG Memimpin Paket dengan Potensi ROI 30,000x

Intelijen Terbaru

Forbes Meluncurkan 20 'Zombie' Kripto, Menyatakan Ripple Dan XRP Di Antara Mayat Hidup

Consob, Pengawas Italia, Melarang Situs Web Perdagangan Valas dan Mata Uang Kripto Tambahan – CryptoInfoNet

Pengukur Inflasi Fed Memanas, Pemotongan Suku Bunga Ditahan karena Bitcoin dan Saham Turun

Jelajahi 6 Kripto Teratas untuk tahun 2024: BlockDAG Memimpin dengan Potensi ROI yang Belum Pernah Ada Sebelumnya

ETF Ethereum spot Franklin Templeton terdaftar di DTCC

Pertumpahan Darah Bitcoin: Analis Kripto Menemukan 'Death Cross' Setelah Penurunan Harga 8%.

Hubungi kami