Inteligência de dados generativa

Apple lança OpenELM, um LLM um pouco mais preciso

Data:

A Apple, normalmente não conhecida pela sua abertura, lançou um modelo generativo de IA chamado OpenELM que aparentemente supera um conjunto de outros modelos de linguagem treinados em conjuntos de dados públicos.

Não é muito – comparado com OLMo, que estreou em fevereiro, OpenELM é 2.36% mais preciso ao usar 2x menos tokens de pré-treinamento. Mas talvez seja suficiente lembrar às pessoas que a Apple não se contenta mais em ser a flor da vida na rave da indústria de IA.

A reivindicação de abertura da Apple vem de sua decisão de lançar não apenas o modelo, mas também sua estrutura de treinamento e avaliação.

“Divergindo das práticas anteriores que fornecem apenas pesos de modelo e código de inferência e pré-treinamento em conjuntos de dados privados, nosso lançamento inclui a estrutura completa para treinamento e avaliação do modelo de linguagem em conjuntos de dados disponíveis publicamente, incluindo logs de treinamento, vários pontos de verificação e pré -configurações de treinamento”, explicam onze pesquisadores da Apple nos países associados papel técnico.

E divergindo da prática acadêmica, os endereços de e-mail dos autores não estão listados. Atribua isso à interpretação de abertura da Apple, que é um tanto comparável ao OpenAI não muito aberto.

O acompanhamento lançamento de software não é uma licença de código aberto reconhecida. Não é indevidamente restritivo, mas deixa claro que a Apple se reserva o direito de registrar uma reivindicação de patente se qualquer trabalho derivado baseado no OpenELM for considerado uma violação de seus direitos.

OpenELM utiliza uma técnica chamada escalonamento em camadas para alocar parâmetros de forma mais eficiente no modelo do transformador. Portanto, em vez de cada camada ter o mesmo conjunto de parâmetros, as camadas do transformador do OpenELM têm configurações e parâmetros diferentes. O resultado é melhor precisão, mostrado na porcentagem de previsões corretas do modelo em testes de benchmark.

Disseram-nos que o OpenELM foi pré-treinado usando o Pijama Vermelho conjunto de dados do GitHub, uma tonelada de livros, Wikipedia, postagens do StackExchange, documentos do ArXiv e muito mais, e o Dolma definido no Reddit, Wikibooks, Project Gutenberg e muito mais. O modelo pode ser usado como você espera: você fornece um prompt e ele tenta respondê-lo ou preenchê-lo automaticamente.

Um aspecto digno de nota do lançamento é que ele vem acompanhado de “código para converter modelos para a biblioteca MLX para inferência e ajuste fino em dispositivos Apple”.

MLX é uma estrutura lançada no ano passado para executar aprendizado de máquina no silício da Apple. A capacidade de operar localmente em dispositivos Apple, e não em rede, deve tornar o OpenELM mais interessante para os desenvolvedores.

“O lançamento do OpenELM da Apple marca um avanço significativo para a comunidade de IA, oferecendo processamento de IA eficiente no dispositivo, ideal para aplicativos móveis e dispositivos IoT com poder de computação limitado”, disse Shahar Chen, CEO e cofundador da empresa de serviços de IA Aquant. O registro. “Isso permite uma tomada de decisão rápida e local, essencial para tudo, desde smartphones até dispositivos domésticos inteligentes, expandindo o potencial da IA ​​na tecnologia cotidiana.”

A Apple está ansiosa para mostrar os méritos de sua arquitetura de chip desenvolvida internamente para aprendizado de máquina, suportada especificamente em hardware desde que Cupertino lançou seu Motor Neural em 2017. No entanto, o OpenELM, embora possa ter uma pontuação mais alta em benchmarks de precisão, fica aquém em termos de desempenho.

“Apesar da maior precisão do OpenELM para uma contagem de parâmetros semelhante, observamos que ele é mais lento que o OLMo”, explica o artigo, citando testes executados usando CUDA da Nvidia no Linux, bem como a versão MLX do OpenELM no Apple Silicon.

A razão para a exibição nada vitoriosa, dizem os especialistas da Apple, é sua “implementação ingênua de Norma RMS”, uma técnica para normalizar dados em aprendizado de máquina. No futuro, eles planejam explorar outras otimizações.

OpenELM está disponível em modelos pré-treinados e ajustados por instrução com 270 milhões, 450 milhões, 1.1 bilhão e 3 bilhões de parâmetros. Aqueles que o utilizam são avisados ​​para exercer a devida diligência antes de tentar o modelo para qualquer coisa significativa.

“O lançamento dos modelos OpenELM visa capacitar e enriquecer a comunidade de pesquisa aberta, fornecendo acesso a modelos de linguagem de última geração”, afirma o jornal. “Treinados em conjuntos de dados disponíveis publicamente, esses modelos são disponibilizados sem quaisquer garantias de segurança.” ®

local_img

Inteligência mais recente

local_img

Fale Conosco

Olá! Como posso ajudá-lo?