Inteligência de dados generativa

Meta estreia modelo de linguagem grande Llama de terceira geração

Data:

A Meta lançou seu mais recente modelo de linguagem grande (LLM) – chamado Llama 3 – e afirma que desafiará modelos muito maiores de empresas como Google, Mistral e Anthropic.

Revelado em um longo anúncio na quinta-feira, o Llama 3 estará disponível em versões que variam de oito bilhões a mais de 400 bilhões de parâmetros. Para referência, os maiores modelos da OpenAI e do Google estão se aproximando de dois trilhões de parâmetros.

Por enquanto, estamos apenas tendo acesso aos oito bilhões e 3 bilhões de variantes de texto de parâmetros do Llama 70. A Meta ainda não terminou o treinamento de seus modelos maiores e mais complexos, mas sugere que eles serão multilíngues e multimodais – o que significa que serão montados a partir de vários modelos menores otimizados para domínio.

Mesmo com apenas 70 bilhões de parâmetros, Meta afirma que o Llama 3 é mais do que capaz de enfrentar modelos muito maiores.

Meta afirma que Llama3-8B e 70B podem superar modelos muito maiores, incluindo Gemini Pro e Claude 3 da Antrhopic

Meta afirma que Llama3-8B e 70B podem superar modelos muito maiores, incluindo Gemini Pro e Claude 3 da Antrhopic – Clique para ampliar

Melhores dados, melhor modelo

Um dos maiores ganhos, segundo a Meta, vem da utilização de um tokenizer com vocabulário de 128,000 mil tokens. No contexto dos LLMs, os tokens podem ser alguns caracteres, palavras inteiras ou até mesmo frases. As IAs dividem a entrada humana em tokens e, em seguida, usam seus vocabulários de tokens para gerar resultados.

Meta explicou que seu tokenizer ajuda a codificar a linguagem de forma mais eficiente, aumentando significativamente o desempenho. Ganhos adicionais foram alcançados usando conjuntos de dados de maior qualidade e etapas adicionais de ajuste fino após o treinamento para melhorar o desempenho e a precisão geral do modelo.

Especificamente, Meta revelou que o Llama 3 foi pré-treinado em mais de 15 trilhões de tokens coletados de fontes disponíveis publicamente.

O conjunto de dados de treinamento do Llama 3 é sete vezes maior e contém quatro vezes mais código do que o Llama 2, que lançado há apenas nove meses. Mas, como diz o ditado, “entra lixo, sai lixo” – então a Meta afirma que desenvolveu uma série de pipelines de filtragem de dados para garantir que o Llama 3 fosse treinado com o mínimo de informações ruins possível.

Esses controles de qualidade incluíam filtros heurísticos e NSFW, bem como desduplicação de dados e classificadores de texto usados ​​para prever a qualidade das informações antes do treinamento. A Meta até usou seu antigo modelo Llama 2 – que disse ser “surpreendentemente bom na identificação de dados de alta qualidade” – para ajudar a separar o joio do trigo.

Cinco por cento dos dados de treinamento vieram de mais de 30 idiomas, o que Meta previu que no futuro ajudará a trazer capacidades multilíngues mais substanciais para o modelo. Por enquanto, a Social Network™️ afirma que os usuários não devem esperar o mesmo grau de desempenho em outros idiomas além do inglês.

Treinar modelos pequenos em um conjunto de dados tão grande é geralmente considerado uma perda de tempo de computação e até mesmo produz retornos decrescentes de precisão. A combinação ideal de dados de treinamento para recursos de computação é chamada de “Chinchila ideal”Quantidade [PDF]. De acordo com Meta, para um modelo de oito bilhões de parâmetros como o Llama3-8B, seriam cerca de 200 bilhões de tokens.

No entanto, nos testes, o Meta descobriu que o desempenho do Llama 3 continuou a melhorar mesmo quando treinado em conjuntos de dados maiores. “Tanto nossos modelos de parâmetros de oito bilhões quanto de 70 bilhões continuaram a melhorar log-linearmente depois que os treinamos em até 15 trilhões de tokens”, escreveu o negócio.

O resultado, ao que parece, é um modelo relativamente compacto capaz de gerar resultados comparáveis ​​a modelos muito maiores. A compensação na computação provavelmente foi considerada válida, já que modelos menores são geralmente mais fáceis de inferir e, portanto, mais fáceis de implantar em escala.

Com precisão de 8 bits, um modelo de oito bilhões de parâmetros requer apenas 8 GB de memória. Abaixar para a precisão de 4 bits – seja usando hardware que a suporte ou usando quantização para compactar o modelo – reduziria os requisitos de memória pela metade.

Meta treinou o modelo em um par de clusters de computação, cada um contendo 24,000 GPUs Nvidia. Como você pode imaginar, o treinamento em um cluster tão grande, embora mais rápido, também apresenta alguns desafios – a probabilidade de algo falhar no meio de uma execução de treinamento aumenta.

Para mitigar isso, a Meta explicou que desenvolveu uma pilha de treinamento que automatiza a detecção, tratamento e manutenção de erros. O hiperescalador também adicionou sistemas de monitoramento e armazenamento de falhas para reduzir a sobrecarga do ponto de verificação e da reversão caso uma execução de treinamento seja interrompida. E uma vez concluído, Meta submeteu os modelos a uma série de testes pós-treinamento e etapas de ajuste fino.

Juntamente com o Llama3-8B e o 70B, a Meta também lançou ferramentas novas e atualizadas de confiança e segurança – incluindo o Llama Guard 2 e o Cybersec Eval 2, para ajudar os usuários a proteger o modelo contra abusos e/ou ataques de injeção imediata. Code Shield é outra adição que fornece proteções projetadas para ajudar a filtrar códigos inseguros gerados pelo Llama 3.

Como relatamos anteriormente, a geração de código assistida por LLM levou a alguns resultados interessantes vetores de ataque que Meta está tentando evitar.

Disponibilidade

Nos próximos meses, a Meta planeja lançar modelos adicionais – incluindo um que excede 400 bilhões de parâmetros e suporta funcionalidades adicionais, linguagens e janelas de contexto maiores. Este último permitirá que os usuários façam perguntas maiores e mais complexas – como resumir um grande bloco de texto.

Llama3-8B e 70B estão atualmente disponíveis para download no Meta's site do Network Development Group. Amazon Web Services, Microsoft Azure, Google Cloud, Hugging Face e outros também planejam oferecer o modelo para implantação em suas plataformas.

Se quiser testar o Llama3 em sua máquina, você pode conferir nosso guia sobre como executar LLMs locais SUA PARTICIPAÇÃO FAZ A DIFERENÇA. Depois de instalado, você pode iniciá-lo executando:

ollama corre lhama3

Divirta-se e conte-nos como foi. ®

local_img

Inteligência mais recente

local_img