Anthropic'in Claude Yapay Zekası, Chatbot Arena Liderlik Tablosunda ChatGPT'yi Devirdi - Decrypt

Open AI'dan ChatGPT, tüm üretken AI araçları arasında en büyük ana akım zihin paylaşımına sahipken, AI araştırmacıları tarafından kullanılan popüler kitle kaynaklı liderlik tablosunda en üst sıradaki yeri, daimi rakip Anthropic'in en üst düzey ürünü Claude 3 Opus tarafından çalındı.

Claude'un Chatbot Arena sıralamasındaki yükselişi, OpenAI'nin ChatGPT Plus'a güç veren GPT-4'ünün geçen yılın Mayıs ayında liderlik tablosunda ilk kez ortaya çıkmasından bu yana ilk kez tahtından indirilmesine işaret ediyor.

Chatbot Arena, Kaliforniya Üniversitesi, Berkeley, UC San Diego ve Carnegie Mellon Üniversitesi'ndeki öğrenciler ve öğretim üyeleri arasındaki iş birliğini destekleyen açık modellere adanmış bir araştırma kuruluşu olan Large Model Systems Organizasyonu (LMSYS ORG) tarafından yönetilmektedir. Platform, kullanıcılara iki etiketsiz dil modeli sunuyor ve onlardan uygun gördükleri kriterlere göre hangisinin daha iyi performans gösterdiğini derecelendirmelerini istiyor.

Binlerce öznel karşılaştırmayı topladıktan sonra Chatbot Arena, liderlik tablosu için "en iyi" modelleri hesaplayarak zaman içinde güncelliyor.

Katılımcıların farklı kişisel zevklerine dayanan bu öznel yaklaşım, Chatbot Arena'yı diğer AI kıyaslamalarından ayıran şeydir. Model eğitmenleri, niceliksel kıyaslamalarda olduğu gibi, modellerini algoritmayı yenecek şekilde uyarlayarak "hile yapamazlar". İnsanların basitçe neyi tercih ettiğini ölçen Chatbot Arena, yapay zeka araştırmacıları için değerli ve niteliksel bir kaynaktır.

Platform, kullanıcıların geri bildirimlerini toplar ve bunları Bradley-Terry istatistiksel modeli Belirli bir modelin doğrudan rekabette diğerlerinden daha iyi performans gösterme olasılığını tahmin etmek. Bu yaklaşım Elo derecelendirme tahminleri için güven aralığı aralıkları da dahil olmak üzere kapsamlı istatistiklerin oluşturulmasını sağlar; satranç oyuncularının becerilerini ölçmek için kullanılan tekniğin aynısıdır.

*Chatbot Arena tarafından sıralanan en iyi 10 LLM. Resim: Sarılma yüzü*

Claude 3 Opus'un zirveye yükselişi liderlik tablosundaki tek önemli gelişme değil. Claude 3 Sonnet (ücretsiz olarak sunulan orta boy model) ve yine Anthropic tarafından geliştirilen Claude 3 Haiku (daha küçük, daha hızlı bir model) şu anda sırasıyla 4. ve 6. sırada yer alıyor.

Skor tablosunda GPT-4-4 (GPT-0314'ün Mart 4 tarihli "orijinal" sürümü), GPT-2023-4, GPT-0613-4-preview ve GPT-1106 gibi GPT-4'ün farklı sürümleri bulunur -0125-preview (Ocak 4'ten itibaren API aracılığıyla sunulan en son GPT-2024 Turbo modeli). Sıralamaya göre Sonnet ve Haiku, orijinal GPT-4'ten daha iyi; ayrıca Sonnet, OpenAI tarafından Haziran 2023'te başlatılan ince ayarlı sürümü geride bırakıyor.

Bu aynı zamanda ne yazık ki şu anda ilk 10'da yalnızca bir açık kaynaklı LLM olduğu anlamına geliyor: Qwen, Starling 7b ve Mixtral 8x7B ise ilk 20'deki diğer açık modeller.

Claude'un GPT-4'e göre avantajlarından biri, belirteç bağlamı kapasitesi ve geri alma yeteneğidir. Claude 3 Opus'un halka açık sürümü 200'den fazla tokeni yönetiyor ve kuruluş, neredeyse mükemmel geri alma oranlarıyla 1 milyon tokeni işleyebilen sınırlı bir sürüme sahip olduğunu iddia ediyor. Bu, Claude'un daha uzun istemleri anlayabileceği ve bilgileri diğerlerinden daha etkili bir şekilde tutabileceği anlamına gelir. GPT-4 Turbo ile karşılaştırıldığında128K jetonu işleyen ve uzun istemlerle geri alma yeteneklerini kaybeden.

*Claude 3 Opus'un GPT-4 Turbo'ya karşı doğruluğunu hatırlayın. Anthropic ve Greg Kamradt'ın verilerini kullanan Decrypt'ten görüntü.*

Google'ın İkizler İleri Düzey Yapay zeka asistanı alanında da ilgi görüyor. Şirket, Chat GPT Plus aboneliğiyle aynı fiyata (aylık 2 ABD doları) Google ürünleri paketinde 20 TB depolama alanı ve yapay zeka özellikleri içeren bir plan sunuyor.

Ücretsiz Gemini Pro şu anda GPT-4 Turbo ve Claude 4 Sonnet arasında 3. sırada yer alıyor. Sınıfının en iyisi Gemini Ultra modeli test için mevcut değil ve henüz sıralamada yer almıyor.

Düzenleyen ryan ozawa.

Kripto haberlerinden haberdar olun, gelen kutunuzda günlük güncellemeler alın.

SEO Destekli İçerik ve Halkla İlişkiler Dağıtımı. Bugün Gücünüzü Artırın.
PlatoData.Network Dikey Üretken Yapay Zeka. Kendine güç ver. Buradan Erişin.
PlatoAiStream. Web3 Zekası. Bilgi Genişletildi. Buradan Erişin.
PlatoESG. karbon, temiz teknoloji, Enerji, Çevre, Güneş, Atık Yönetimi. Buradan Erişin.
PlatoSağlık. Biyoteknoloji ve Klinik Araştırmalar Zekası. Buradan Erişin.
Kaynak: https://decrypt.co/223787/anthropic-claude-ai-versus-openai-chatgpt-llm-arena-ranking

Üretken Veri Zekası

Anthropic'in Claude Yapay Zekası, Chatbot Arena Liderlik Tablosunda ChatGPT'yi Devirdi - Şifre Çözme

Kripto haberlerinden haberdar olun, gelen kutunuzda günlük güncellemeler alın.

Adalet Bakanlığı, Yeni Başvuruda Roman Storm'un Tornado Nakit Operasyonlarını Tanımlamasına İtiraz Ediyor

En İyi 5 Kripto Ön Satışı: BDAG, 30,000x Yatırım Getirisi Potansiyeliyle Pakette Liderlik Ediyor

En Son İstihbarat

Forbes 20 Kripto 'Zombi'yi Açıkladı, Ripple ve XRP'nin Ölümsüzler Arasında Olduğunu Açıkladı

İtalya'nın Gözlemcisi Consob, Ek Forex ve Kripto Para Ticareti Web Sitelerini Yasakladı – CryptoInfoNet

Fed'in Enflasyon Göstergesi Isınıyor, Bitcoin ve Hisse Senetleri Kaydıkça Faiz İndirimleri Beklemede

6 Yılının En İyi 2024 Kripto Parasını Keşfedin: BlockDAG, Benzeri Görülmemiş Yatırım Getirisi Potansiyeliyle Önde

Franklin Templeton'ın Ethereum spot ETF'si DTCC'de listelendi

Bitcoin Kan Banyosu: Kripto Analisti %8 Fiyat Düşüşünden Sonra 'Ölüm Haçı'nı Tespit Etti

Bizimle sohbet