Inteligencia de datos generativa

Claude AI de Anthropic derroca a ChatGPT en la clasificación de Chatbot Arena – Decrypt

Fecha:

Si bien ChatGPT de Open AI disfruta de la mayor participación en la mentalidad general de todas las herramientas de IA generativa, su primer lugar le ha sido robado por el Claude 3 Opus de primera línea del eterno contendiente Anthropic en una popular tabla de clasificación de colaboración colectiva utilizada por investigadores de IA.

El ascenso de Claude en la clasificación de Chatbot Arena marca la primera vez que GPT-4 de OpenAI, que impulsa ChatGPT Plus, ha sido destronado desde que apareció por primera vez en la clasificación en mayo del año pasado.

Chatbot Arena está dirigido por Large Model Systems Organization (LMSYS ORG), una organización de investigación dedicada a modelos abiertos que respaldan la colaboración entre estudiantes y profesores de la Universidad de California, Berkeley, UC San Diego y la Universidad Carnegie Mellon. La plataforma presenta a los usuarios dos modelos de lenguaje sin etiquetar y les pide que califiquen cuál funciona mejor según los criterios que consideren adecuados.

Después de agregar miles de comparaciones subjetivas, Chatbot Arena calcula los "mejores" modelos para la tabla de clasificación y los actualiza con el tiempo.

Ese enfoque subjetivo, basado en los gustos personales dispares de los participantes, es lo que diferencia a Chatbot Arena de otros puntos de referencia de IA. Los formadores de modelos no pueden “hacer trampa” adaptando sus modelos para superar el algoritmo, como lo harían con los puntos de referencia cuantitativos. Al medir lo que la gente simplemente prefiere, Chatbot Arena es un recurso valioso y cualitativo para los investigadores de IA.

La plataforma recopila los comentarios de los usuarios y los ejecuta a través del Modelo estadístico de Bradley-Terry predecir la probabilidad de que un modelo particular supere a otros en competencia directa. Este enfoque permite generar estadísticas integrales, incluidos rangos de intervalos de confianza para estimaciones de calificación Elo, la misma técnica utilizada para medir la habilidad de los jugadores de ajedrez.

Los 10 mejores LLM clasificados por Chatbot Arena. Imagen: Huggingface
Los 10 mejores LLM clasificados por Chatbot Arena. Imagen: Huggingface

El ascenso de Claude 3 Opus a la cima no es el único avance significativo en la clasificación. Claude 3 Sonnet (el modelo de tamaño mediano disponible de forma gratuita) y Claude 3 Haiku (un modelo más pequeño y más rápido), también desarrollado por Anthropic, se encuentran actualmente en el cuarto y sexto lugar, respectivamente.

La tabla de clasificación incluye diferentes versiones de GPT-4, como GPT-4-0314 (la versión “original” de GPT-4 de marzo de 2023), GPT-4-0613, GPT-4-1106-preview y GPT-4. -0125-preview (el último modelo GPT-4 Turbo disponible vía API desde enero de 2024). Según la clasificación, Sonnet y Haiku son mejores que el GPT-4 original y Sonnet también supera a una versión modificada lanzada por OpenAI en junio de 2023.

Esto también significa que, lamentablemente, actualmente solo hay un LLM de código abierto entre los 10 primeros: Qwen, siendo Starling 7b y Mixtral 8x7B los únicos otros modelos abiertos entre los 20 primeros.

Una de las ventajas de Claude sobre GPT-4 es su capacidad de contexto de token y de recuperación. La versión pública de Claude 3 Opus maneja más de 200, y la organización afirma tener una versión restringida capaz de manejar 1 millón de tokens con tasas de recuperación casi perfectas. Esto significa que Claude puede comprender indicaciones más largas y retener información de manera más efectiva que comparado con GPT-4 Turbo, que maneja 128 tokens y pierde sus capacidades de recuperación con indicaciones largas.

Recordemos la precisión de Claude 3 Opus vs GPT-4 Turbo. Imagen de Decrypt usando datos de Anthropic y Greg Kamradt
Recordemos la precisión de Claude 3 Opus vs GPT-4 Turbo. Imagen de Decrypt usando datos de Anthropic y Greg Kamradt.

De Google Géminis Avanzado También ha ido ganando terreno en el espacio de asistentes de IA. La compañía ofrece un plan que incluye 2 TB de almacenamiento y capacidades de inteligencia artificial en el conjunto de productos de Google por el mismo precio que una suscripción Chat GPT Plus ($20 por mes).

El Gemini Pro gratuito ocupa actualmente el puesto número 4, entre GPT-4 Turbo y Claude 3 Sonnet. El modelo Gemini Ultra de gama alta no está disponible para pruebas y aún no aparece en la clasificación.

Editado por ryan ozawa.

Manténgase al tanto de las noticias criptográficas, obtenga actualizaciones diarias en su bandeja de entrada.

punto_img

Información más reciente

punto_img

Habla con nosotros!

¡Hola! ¿Le puedo ayudar en algo?