Üretken Veri Zekası

Anthropic'in Claude Yapay Zekası, Chatbot Arena Liderlik Tablosunda ChatGPT'yi Devirdi - Şifre Çözme

Tarih:

Open AI'dan ChatGPT, tüm üretken AI araçları arasında en büyük ana akım zihin paylaşımına sahipken, AI araştırmacıları tarafından kullanılan popüler kitle kaynaklı liderlik tablosunda en üst sıradaki yeri, daimi rakip Anthropic'in en üst düzey ürünü Claude 3 Opus tarafından çalındı.

Claude'un Chatbot Arena sıralamasındaki yükselişi, OpenAI'nin ChatGPT Plus'a güç veren GPT-4'ünün geçen yılın Mayıs ayında liderlik tablosunda ilk kez ortaya çıkmasından bu yana ilk kez tahtından indirilmesine işaret ediyor.

Chatbot Arena, Kaliforniya Üniversitesi, Berkeley, UC San Diego ve Carnegie Mellon Üniversitesi'ndeki öğrenciler ve öğretim üyeleri arasındaki iş birliğini destekleyen açık modellere adanmış bir araştırma kuruluşu olan Large Model Systems Organizasyonu (LMSYS ORG) tarafından yönetilmektedir. Platform, kullanıcılara iki etiketsiz dil modeli sunuyor ve onlardan uygun gördükleri kriterlere göre hangisinin daha iyi performans gösterdiğini derecelendirmelerini istiyor.

Binlerce öznel karşılaştırmayı topladıktan sonra Chatbot Arena, liderlik tablosu için "en iyi" modelleri hesaplayarak zaman içinde güncelliyor.

Katılımcıların farklı kişisel zevklerine dayanan bu öznel yaklaşım, Chatbot Arena'yı diğer AI kıyaslamalarından ayıran şeydir. Model eğitmenleri, niceliksel kıyaslamalarda olduğu gibi, modellerini algoritmayı yenecek şekilde uyarlayarak "hile yapamazlar". İnsanların basitçe neyi tercih ettiğini ölçen Chatbot Arena, yapay zeka araştırmacıları için değerli ve niteliksel bir kaynaktır.

Platform, kullanıcıların geri bildirimlerini toplar ve bunları Bradley-Terry istatistiksel modeli Belirli bir modelin doğrudan rekabette diğerlerinden daha iyi performans gösterme olasılığını tahmin etmek. Bu yaklaşım Elo derecelendirme tahminleri için güven aralığı aralıkları da dahil olmak üzere kapsamlı istatistiklerin oluşturulmasını sağlar; satranç oyuncularının becerilerini ölçmek için kullanılan tekniğin aynısıdır.

Chatbot Arena tarafından sıralanan en iyi 10 LLM. Resim: Sarılma yüzü
Chatbot Arena tarafından sıralanan en iyi 10 LLM. Resim: Sarılma yüzü

Claude 3 Opus'un zirveye yükselişi liderlik tablosundaki tek önemli gelişme değil. Claude 3 Sonnet (ücretsiz olarak sunulan orta boy model) ve yine Anthropic tarafından geliştirilen Claude 3 Haiku (daha küçük, daha hızlı bir model) şu anda sırasıyla 4. ve 6. sırada yer alıyor.

Skor tablosunda GPT-4-4 (GPT-0314'ün Mart 4 tarihli "orijinal" sürümü), GPT-2023-4, GPT-0613-4-preview ve GPT-1106 gibi GPT-4'ün farklı sürümleri bulunur -0125-preview (Ocak 4'ten itibaren API aracılığıyla sunulan en son GPT-2024 Turbo modeli). Sıralamaya göre Sonnet ve Haiku, orijinal GPT-4'ten daha iyi; ayrıca Sonnet, OpenAI tarafından Haziran 2023'te başlatılan ince ayarlı sürümü geride bırakıyor.

Bu aynı zamanda ne yazık ki şu anda ilk 10'da yalnızca bir açık kaynaklı LLM olduğu anlamına geliyor: Qwen, Starling 7b ve Mixtral 8x7B ise ilk 20'deki diğer açık modeller.

Claude'un GPT-4'e göre avantajlarından biri, belirteç bağlamı kapasitesi ve geri alma yeteneğidir. Claude 3 Opus'un halka açık sürümü 200'den fazla tokeni yönetiyor ve kuruluş, neredeyse mükemmel geri alma oranlarıyla 1 milyon tokeni işleyebilen sınırlı bir sürüme sahip olduğunu iddia ediyor. Bu, Claude'un daha uzun istemleri anlayabileceği ve bilgileri diğerlerinden daha etkili bir şekilde tutabileceği anlamına gelir. GPT-4 Turbo ile karşılaştırıldığında128K jetonu işleyen ve uzun istemlerle geri alma yeteneklerini kaybeden.

Claude 3 Opus'un GPT-4 Turbo'ya karşı doğruluğunu hatırlayın. Anthropic ve Greg Kamradt'ın verilerini kullanan Decrypt'ten görüntü
Claude 3 Opus'un GPT-4 Turbo'ya karşı doğruluğunu hatırlayın. Anthropic ve Greg Kamradt'ın verilerini kullanan Decrypt'ten görüntü.

Google'ın İkizler İleri Düzey Yapay zeka asistanı alanında da ilgi görüyor. Şirket, Chat GPT Plus aboneliğiyle aynı fiyata (aylık 2 ABD doları) Google ürünleri paketinde 20 TB depolama alanı ve yapay zeka özellikleri içeren bir plan sunuyor.

Ücretsiz Gemini Pro şu anda GPT-4 Turbo ve Claude 4 Sonnet arasında 3. sırada yer alıyor. Sınıfının en iyisi Gemini Ultra modeli test için mevcut değil ve henüz sıralamada yer almıyor.

Düzenleyen ryan ozawa.

Kripto haberlerinden haberdar olun, gelen kutunuzda günlük güncellemeler alın.

spot_img

En Son İstihbarat

spot_img

Bizimle sohbet

Merhaba! Size nasıl yardım edebilirim?