Inteligência de dados generativa

Microsoft reduz IA ao tamanho de bolso com Phi-3 Mini

Data:

A Microsoft afirma que a última encarnação de seu modelo leve Phi-3 Mini AI rivaliza com concorrentes como o GPT-3.5, embora seja pequeno o suficiente para ser implantado em um telefone.

Phi-3 Mini é um modelo de linguagem de 3.8 bilhões de parâmetros treinado em 3.3 trilhões de tokens. Este número está acima dos 2.7 bilhões de parâmetros do Phi-2, que a Microsoft introduzido em Dezembro 2023.

Em vez de investir o máximo possível nos modelos de treinamento, o foco estava no raciocínio. A Microsoft disse: “Por exemplo, o resultado de um jogo na Premier League em um determinado dia pode ser bons dados de treinamento para modelos de fronteira, mas precisamos remover essas informações para deixar mais capacidade de modelo para 'raciocínio' para os modelos de tamanho mini .”

A abordagem direcionada significa que, embora o Phi-3 possa não ter a mesma amplitude de conhecimento dos seus concorrentes, é pelo menos tão bom, se não melhor, quando se trata de raciocínio, ou pelo menos é o que afirma a Microsoft. Em um trabalho de pesquisa [PDF], a Microsoft observa que isso permitiu que seu modelo de linguagem pequena “alcançasse o nível de modelos altamente capazes, como GPT-3.5 ou Mixtral com apenas 3.8B de parâmetros totais (enquanto Mixtral tem 45B de parâmetros totais, por exemplo)”.

A pesquisa também observa que os dados de treinamento utilizados consistiam em “dados da web altamente filtrados… de várias fontes abertas da Internet” e dados gerados pelo LLM. As fontes de dados usadas para treinar LLMs são objeto de vários processos.

O pequeno tamanho do Phi-3 Mini significa que ele pode funcionar offline em um smartphone, disseram-nos. Os pesquisadores disseram que ele poderia ocupar aproximadamente 1.8 GB de memória e testaram-no offline em um iPhone 14 com um chip A16 Bionic rodando nativamente em um dispositivo. No artigo, os pesquisadores mostram capturas de tela do Phi-3 Mini escrevendo um poema e sugerindo coisas para fazer em Houston.

Os pesquisadores também destacam as desvantagens inerentes ao foco na compreensão e no raciocínio da linguagem. “O modelo simplesmente não tem capacidade de armazenar muito 'conhecimento factual'”, algo que pode ser mitigado até certo ponto aumentando-o com um mecanismo de busca. No entanto, isso anularia a possibilidade de executá-lo offline.

Atualmente, o idioma está restrito principalmente ao inglês, e problemas inerentes à maioria dos LLMs – alucinações, amplificação de preconceitos e geração de conteúdo impróprio – também podem ser encontrados no Phi-3 Mini.

Os investigadores afirmam no artigo: “Há um trabalho significativo pela frente para enfrentar plenamente estes desafios”.

Modelos maiores – relativamente falando – também foram anunciados na forma de Phi-3 Small e Phi-3 Medium com 7 e 14 bilhões de parâmetros, respectivamente.

Victor Botev, CTO e cofundador da Iris.ai, nos disse: “O anúncio do modelo Phi-3 pela Microsoft representa uma tendência contínua no desenvolvimento de IA. Em vez de perseguir modelos cada vez maiores, a Microsoft está desenvolvendo ferramentas com dados mais cuidadosamente selecionados e treinamento especializado. Isso permite melhor desempenho e capacidade de raciocínio sem os enormes custos computacionais de modelos com trilhões de parâmetros. Cumprir esta promessa significaria derrubar uma enorme barreira de adoção para empresas que procuram soluções de IA.

“A Microsoft está olhando sabiamente além da mentalidade de 'quanto maior, melhor'. Para aplicações generalizadas de IA para empresas e consumidores, a viabilidade e a especificidade são mais importantes do que contagens massivas de parâmetros. Modelos como o Phi-3 demonstram claramente que, com a abordagem correta de dados e treinamento, os recursos avançados de IA não precisam exigir a construção de modelos cada vez maiores – um fator decisivo para empresas onde a relação custo-qualidade é crítica.” ®

local_img

Inteligência mais recente

local_img

Fale Conosco

Olá! Como posso ajudá-lo?