Inteligencia de datos generativa

Este modelo de IA ultraligero cabe en tu teléfono y puede superar a ChatGPT – Decrypt

Fecha:

Microsoft hoy afirmó que ha lanzado "los modelos de lenguaje pequeño (SLM) más capaces y rentables disponibles", diciendo fi-3—la tercera iteración de su Familia Phi de modelos de lenguaje pequeño (SLM): supera a los modelos de tamaño comparable y a algunos más grandes.

Un modelo de lenguaje pequeño (SLM) es un tipo de modelo de inteligencia artificial que está diseñado para ser extremadamente eficiente en la realización de tareas específicas relacionadas con el lenguaje. A diferencia de los modelos de lenguaje grande (LLM), que son adecuados para una amplia gama de tareas genéricas, los SLM se basan en un conjunto de datos más pequeño para hacerlos más eficientes y rentables para casos de uso específicos.

Phi-3 viene en diferentes versiones, explicó Microsoft, siendo la más pequeña Phi-3 Mini, un modelo de 3.8 millones de parámetros entrenado en 3.3 billones de tokens. A pesar de su tamaño comparativamente pequeño (el corpus de Llama-3 pesa más de 15 billones tokens de datos: Phi-3 Mini todavía es capaz de manejar 128 tokens de contexto. Esto lo hace comparable a GPT-4 y supera a Llama-3 y Mistral Large en términos de capacidad de token.

En otras palabras, los gigantes de la IA como Llama-3 en Meta.ai y Mistral Large podrían colapsar después de una larga charla o recibir un aviso mucho antes de que este modelo liviano comience a tener problemas.

Una de las ventajas más importantes del Phi-3 Mini es su capacidad de adaptarse y funcionar en un teléfono inteligente típico. Microsoft probó el modelo en un iPhone 14 y funcionó sin problemas, generando 14 tokens por segundo. Ejecutar Phi-3 Mini requiere solo 1.8 GB de VRAM, lo que lo convierte en una alternativa liviana y eficiente para usuarios con requisitos más específicos.

Si bien Phi-3 Mini puede no ser tan adecuado para codificadores de alto nivel o personas con requisitos amplios, puede ser una alternativa eficaz para usuarios con necesidades específicas. Por ejemplo, las empresas emergentes que necesitan un chatbot o personas que aprovechan los LLM para el análisis de datos pueden usar Phi-3 Mini para tareas como organización de datos, extracción de información, razonamiento matemático y creación de agentes. Si al modelo se le da acceso a Internet, puede volverse bastante poderoso, compensando su falta de capacidades con información en tiempo real.

Phi-3 Mini logra puntuaciones altas en las pruebas debido al enfoque de Microsoft en seleccionar su conjunto de datos con la información más útil posible. De hecho, la familia Phi en general no es buena para tareas que requieren conocimiento factual, pero sus altas habilidades de razonamiento los posicionan por encima de los principales competidores. Phi-3 Medium (un modelo de 14 mil millones de parámetros) supera consistentemente a potentes LLM como GPT-3.5 (el LLM que impulsa la versión gratuita de ChatGPT) y la versión Mini supera a potentes modelos como Mixtral-8x7B en la mayoría de los puntos de referencia sintéticos.

Sin embargo, vale la pena señalar que Phi-3 no es de código abierto como su predecesor, Phi-2. En cambio, es un modelo abierto, lo que significa que es accesible y está disponible para su uso, pero no tiene la misma licencia de código abierto que Phi-2, lo que permite un uso más amplio y aplicaciones comerciales.

En las próximas semanas, Microsoft dijo que lanzará más modelos de la familia Phi-3, incluido el Phi-3 Small (7 mil millones de parámetros) y el Phi-3 Medium antes mencionado.

Microsoft ha hecho que Phi-3 Mini esté disponible en Azure AI Studio, Hugging Face y Ollama. El modelo está ajustado a las instrucciones y optimizado para ONNX Runtime con soporte para Windows DirectML, así como soporte multiplataforma en diferentes GPU, CPU e incluso hardware móvil.

Manténgase al tanto de las noticias criptográficas, obtenga actualizaciones diarias en su bandeja de entrada.

punto_img

Información más reciente

punto_img

Habla con nosotros!

¡Hola! ¿Le puedo ayudar en algo?