Kecerdasan Data Generatif

Claude 3 Opus Mengambil Posisi Teratas di Peringkat Chatbot

Tanggal:

Model AI generasi berikutnya dari Anthropic, Claude 3 Opus, telah mengambil posisi terdepan di papan peringkat Chatbot Arena, mendorong GPT-4 OpenAI ke posisi terbaik kedua.

Sejak diluncurkan tahun lalu, ini adalah pertama kalinya model Claude 3 Opus menduduki puncak daftar Chatbot Arena, yang ketiga versi Claud 3 berada di peringkat 10 besar.

Model Claude 3 memberi kesan

Arena Chatbot LMSYS pemeringkatan menunjukkan bahwa Claude 3 Sonnet menempati posisi keempat bersama dengan Gemini Pro sementara Claude 3 Haiku, yang diluncurkan tahun ini berada di peringkat keenam bersama dengan versi GPT-4 sebelumnya.

Meskipun Claude 3 Haiku mungkin tidak secerdas Sonnet atau Opus, modelnya lebih cepat dan jauh lebih murah, namun โ€œsama bagusnya dengan model yang jauh lebih besar dalam pengujian buta,โ€ seperti yang terungkap dalam hasil arena.

โ€œClaude 3 Haiku telah mengesankan semua orang, bahkan mencapai level GPT-4 berdasarkan preferensi pengguna kami! Kecepatan, kemampuan, dan durasi konteksnya kini tak tertandingi di pasaran,โ€ jelas LMSYS.

Menurut Tom's Guide, apa yang membuat Haiku lebih mengesankan adalah โ€œmodel ukuran lokal yang sebanding dengan Gemini Nano.โ€ Bisa membaca dan memproses penelitian padat informasi makalah dalam waktu kurang dari tiga detik.

Model ini mencapai hasil yang luar biasa bahkan tanpa skala parameter Opus atau model kelas GPT-4 mana pun.

Mungkinkah ini kesuksesan yang berumur pendek?

Meski terdorong ke posisi kedua, versi GPT-4 OpenAI masih mendominasi 10 besar daftar dengan empat versi.

Menurut Tom's Guide, versi GPT-4 OpenAI dalam berbagai bentuknya telah menduduki posisi teratas โ€œbegitu lama sehingga model lain yang mendekati tolok ukurnya dikenal sebagai model kelas GPT-4.โ€

Dengan perkiraan GPT-5 yang โ€œsangat berbedaโ€ pada tahun ini, Anthropic mungkin tidak akan mempertahankan posisi tersebut terlalu lama, karena kesenjangan skor antara Claude 3 Opus dan GPT-4 sangat sempit.

Meskipun OpenAI masih bungkam mengenai rilis aktualnya GPT-5, pasar sangat menantikan peluncurannya. Model tersebut kabarnya sedang menjalani beberapa hal โ€œpengujian keamanan yang ketatโ€ dan simulasi serangan yang penting sebelum dirilis.

Arena Chatbot LMSYS

Pemeringkatan ini bergantung pada suara manusia, dibandingkan dengan bentuk tolok ukur model AI lainnya. Dengan yang satu ini, orang-orang mengurutkan output dari dua model berbeda ke prompt yang sama.

Chatbot Arena dijalankan oleh LMSYS dan menampilkan sejumlah model bahasa besar (LLM) yang bertarung dalam โ€œpertempuran acak anonim.โ€

Ini pertama kali diluncurkan pada Mei lalu dan telah mengumpulkan lebih dari 400,000 suara dari pengguna yang memiliki model AI dari Google, Anthropic dan OpenAI.

โ€œLMSYS Chatbot Arena adalah platform terbuka crowdsourcing untuk evaluasi LLM. Kami telah mengumpulkan lebih dari 400,000 suara preferensi manusia untuk menentukan peringkat LLM dengan sistem peringkat Elo,โ€ kata LMSYS.

Sistem Elo banyak digunakan dalam permainan seperti catur untuk mengevaluasi keterampilan relatif seorang pemain. Namun dalam kasus ini, pemeringkatan diterapkan pada chatbot dan โ€œbukan manusia yang menggunakan model tersebutโ€.

Baca juga: Microsoft Mengungkapkan PC Surface 'Pertama' dengan Tombol Copilot AI

Kekurangannya

Peringkat Chatbot Arena tidak kekurangan kesalahan. Menurut Tom's Guide, ini tidak mencakup semua model atau versi model yang disertakan, sementara pengguna terkadang memiliki pengalaman buruk dengan GPT-4 yang gagal dimuat. Ini juga mendukung beberapa model yang memiliki akses internet langsung, misalnya Google Gemini Pro.

Sedangkan model lainnya seperti yang berasal dari startup AI Perancis mistral dan perusahaan Tiongkok seperti Alibaba baru-baru ini menduduki posisi teratas di arena ini, selain model sumber terbuka, arena ini masih kehilangan beberapa model terkenal. Misalnya, tidak ada model seperti Google Gemini Pro 1.5

tempat_img

Intelijen Terbaru

tempat_img

Hubungi kami

Hai, yang di sana! Apa yang bisa saya bantu?