Inteligencia de datos generativa

Apple lanza OpenELM, un LLM un poco más preciso

Fecha:

Apple, que normalmente no es conocida por su apertura, ha lanzado un modelo de IA generativa llamado OpenELM que aparentemente supera a un conjunto de otros modelos de lenguaje entrenados en conjuntos de datos públicos.

No es mucho – comparado con OLMo, que debutó en febrero, AbrirELM es un 2.36 por ciento más preciso y utiliza el doble de fichas de preentrenamiento. Pero tal vez sea suficiente para recordarle a la gente que Apple ya no se contenta con ser el alhelí en la industria de la IA.

La pretensión de apertura de Apple proviene de su decisión de lanzar no sólo el modelo, sino también su marco de formación y evaluación.

“A diferencia de prácticas anteriores que solo proporcionan pesos de modelo y código de inferencia, y pre-entrenamiento en conjuntos de datos privados, nuestro lanzamiento incluye el marco completo para el entrenamiento y evaluación del modelo de lenguaje en conjuntos de datos disponibles públicamente, incluidos registros de entrenamiento, múltiples puntos de control y pre-entrenamiento. -Configuraciones de entrenamiento”, explican once investigadores de Apple en el artículo asociado. papel técnico.

Y, a diferencia de la práctica académica, las direcciones de correo electrónico de los autores no figuran. Atribuyémoslo a la interpretación de apertura de Apple, que es algo comparable a la no muy abierta OpenAI.

El acompañante lanzamiento de software no es una licencia de código abierto reconocida. No es excesivamente restrictivo, pero deja claro que Apple se reserva el derecho de presentar una reclamación de patente si se considera que algún trabajo derivado basado en OpenELM infringe sus derechos.

OpenELM utiliza una técnica llamada escalado por capas para asignar parámetros de manera más eficiente en el modelo del transformador. Entonces, en lugar de que cada capa tenga el mismo conjunto de parámetros, las capas transformadoras de OpenELM tienen diferentes configuraciones y parámetros. El resultado es mejor la exactitud, que se muestra en el porcentaje de predicciones correctas del modelo en pruebas comparativas.

Se nos dice que OpenELM fue entrenado previamente usando el rojopijama conjunto de datos de GitHub, un montón de libros, Wikipedia, publicaciones de StackExchange, artículos de ArXiv y más, y el Dolma conjunto de Reddit, Wikibooks, Proyecto Gutenberg y más. El modelo se puede utilizar como era de esperar: le da un mensaje e intenta responderlo o completarlo automáticamente.

Un aspecto digno de mención del lanzamiento es que viene acompañado de un "código para convertir modelos a la biblioteca MLX para inferencia y ajuste en dispositivos Apple".

MLX es un marco lanzado el año pasado para ejecutar el aprendizaje automático en Apple Silicon. La capacidad de operar localmente en dispositivos Apple, en lugar de a través de la red, debería hacer que OpenELM sea más interesante para los desarrolladores.

"El lanzamiento de OpenELM de Apple marca un avance significativo para la comunidad de IA, ya que ofrece un procesamiento de IA eficiente en el dispositivo, ideal para aplicaciones móviles y dispositivos de IoT con potencia informática limitada", dijo Shahar Chen, director ejecutivo y cofundador de la empresa de servicios de IA Aquant. El registro. "Esto permite una toma de decisiones rápida y local, esencial para todo, desde teléfonos inteligentes hasta dispositivos domésticos inteligentes, ampliando el potencial de la IA en la tecnología cotidiana".

Apple desea mostrar los méritos de su arquitectura de chip local para el aprendizaje automático, específicamente compatible con hardware desde que Cupertino presentó su Motor Neural en 2017. No obstante, OpenELM, si bien puede obtener una puntuación más alta en los puntos de referencia de precisión, se queda corto en términos de rendimiento.

"A pesar de la mayor precisión de OpenELM para un recuento de parámetros similar, observamos que es más lento que OLMo", explica el documento, citando pruebas realizadas con CUDA de Nvidia en Linux, así como la versión MLX de OpenELM en Apple Silicon.

La razón de esta actuación poco victoriosa, dicen los expertos de Apple, es su “ingenua implementación de RMSNorma”, una técnica para normalizar datos en el aprendizaje automático. En el futuro, planean explorar más optimizaciones.

OpenELM está disponible en modelos previamente entrenados y ajustados con instrucciones con 270 millones, 450 millones, 1.1 mil millones y 3 mil millones de parámetros. Se advierte a quienes lo utilizan que actúen con la debida diligencia antes de probar el modelo en busca de algo significativo.

"El lanzamiento de los modelos OpenELM tiene como objetivo empoderar y enriquecer a la comunidad de investigación abierta al brindar acceso a modelos de lenguaje de última generación", dice el documento. "Estos modelos, capacitados en conjuntos de datos disponibles públicamente, están disponibles sin ninguna garantía de seguridad". ®

punto_img

Información más reciente

punto_img

Habla con nosotros!

¡Hola! ¿Le puedo ayudar en algo?