Kecerdasan Data Generatif

Claude AI Anthropic Menggulingkan ChatGPT di Papan Peringkat Chatbot Arena โ€“ Dekripsi

Tanggal:

Meskipun ChatGPT dari Open AI menikmati mindshare arus utama terbesar di antara semua alat AI generatif, posisi teratasnya telah direbut oleh Claude 3 Opus terbaik dari pesaing abadi Anthropic di papan peringkat crowdsourced populer yang digunakan oleh para peneliti AI.

Kenaikan Claude dalam peringkat Chatbot Arena menandai pertama kalinya GPT-4 OpenAI, yang mendukung ChatGPT Plus, dicopot sejak pertama kali muncul di papan peringkat pada Mei tahun lalu.

Chatbot Arena dijalankan oleh Large Model Systems Organization (LMSYS ORG), sebuah organisasi penelitian yang didedikasikan untuk model terbuka yang mendukung kolaborasi antara mahasiswa dan fakultas di University of California, Berkeley, UC San Diego, dan Carnegie Mellon University. Platform ini memberi pengguna dua model bahasa yang tidak diberi label dan meminta mereka menilai mana yang berkinerja lebih baik berdasarkan kriteria apa pun yang mereka anggap cocok.

Setelah mengumpulkan ribuan perbandingan subjektif, Chatbot Arena menghitung model โ€œterbaikโ€ untuk papan peringkat, dan memperbaruinya seiring waktu.

Pendekatan subjektif tersebut, berdasarkan selera pribadi peserta yang berbeda-beda, inilah yang membedakan Chatbot Arena dari tolok ukur AI lainnya. Pelatih model tidak dapat melakukan โ€œkecuranganโ€ dengan menyesuaikan modelnya agar dapat mengalahkan algoritme, seperti halnya dengan tolok ukur kuantitatif. Dengan mengukur apa yang disukai orang, Chatbot Arena adalah sumber daya kualitatif yang berharga bagi para peneliti AI.

Platform ini mengumpulkan umpan balik pengguna dan menjalankannya melalui Model statistik Bradley-Terry untuk memprediksi kemungkinan model tertentu mengungguli model lain dalam persaingan langsung. Pendekatan ini memungkinkan pembuatan statistik komprehensif, termasuk rentang interval kepercayaan untuk perkiraan peringkat Eloโ€”teknik yang sama yang digunakan untuk mengukur keterampilan pemain catur.

10 LLM teratas diberi peringkat oleh Chatbot Arena. Gambar: Wajah Memeluk
10 LLM teratas diberi peringkat oleh Chatbot Arena. Gambar: Wajah Memeluk

Naiknya Claude 3 Opus ke puncak bukanlah satu-satunya perkembangan signifikan di papan peringkat. Claude 3 Sonnet (model ukuran sedang tersedia gratis) dan Claude 3 Haiku (model lebih kecil dan lebih cepat), juga dikembangkan oleh Anthropic, saat ini masing-masing berada di posisi ke-4 dan ke-6.

Papan peringkat mencakup berbagai versi GPT-4, seperti GPT-4-0314 (versi โ€œasliโ€ GPT-4 mulai Maret 2023), GPT-4-0613, GPT-4-1106-pratinjau, dan GPT-4 -0125-pratinjau (model GPT-4 Turbo terbaru tersedia melalui API mulai Januari 2024). Menurut peringkat tersebut, Sonnet dan Haiku keduanya lebih baik daripada GPT-4 asli dan Sonnet juga melampaui versi penyesuaian yang diluncurkan oleh OpenAI pada Juni 2023.

Ini juga berarti bahwa, sayangnya, hanya ada satu LLM sumber terbuka yang saat ini berada di 10 besar: Qwen, dengan Starling 7b dan Mixtral 8x7B menjadi satu-satunya model terbuka lainnya yang masuk dalam 20 besar.

Salah satu keunggulan Claude dibandingkan GPT-4 adalah kapasitas konteks token dan kemampuan pengambilannya. Versi publik dari Claude 3 Opus menangani lebih dari 200 ribuโ€”dan organisasi tersebut mengklaim memiliki versi terbatas yang mampu menangani 1 juta token dengan tingkat pengambilan yang hampir sempurna. Ini berarti Claude dapat memahami perintah yang lebih panjang dan menyimpan informasi dengan lebih efektif daripada dibandingkan dengan GPT-4 Turbo, yang menangani 128 ribu token dan kehilangan kemampuan pengambilannya dengan perintah yang panjang.

Ingat kembali keakuratan Claude 3 Opus vs GPT-4 Turbo. Gambar dari Decrypt menggunakan data dari Anthropic dan Greg Kamradt
Ingat kembali keakuratan Claude 3 Opus vs GPT-4 Turbo. Gambar dari Decrypt menggunakan data dari Anthropic dan Greg Kamradt.

Google Gemini Tingkat Lanjut juga telah mendapatkan daya tarik di bidang asisten AI. Perusahaan menawarkan paket yang mencakup penyimpanan 2TB dan kemampuan AI dalam rangkaian produk Google dengan harga yang sama dengan langganan Chat GPT Plus ($20 per bulan).

Gemini Pro gratis saat ini berada di peringkat nomor 4, antara GPT-4 Turbo dan Claude 3 Sonnet. Model Gemini Ultra terbaik tidak tersedia untuk pengujian dan belum ditampilkan dalam pemeringkatan.

Diedit oleh Ryan Ozawa.

Tetap di atas berita crypto, dapatkan pembaruan harian di kotak masuk Anda.

tempat_img

Intelijen Terbaru

tempat_img

Hubungi kami

Hai, yang di sana! Apa yang bisa saya bantu?