Inteligência de dados generativa

Technology Innovation Institute treina o modelo de fundação Falcon LLM 40B de última geração no Amazon SageMaker | Amazon Web Services

Data:

Esta postagem de blog foi co-escrita com o Dr. Ebtesam Almazrouei, Diretor Executivo – Pesquisador Chefe Interino de IA da Unidade AI-Cross Center e Líder de Projeto para Projetos LLM no TII.

Emirados Árabes Unidos (EAU) Instituto de Inovação Tecnológica (TII), o pilar de pesquisa aplicada do Abu Dhabi Conselho de Pesquisa de Tecnologia Avançada, lançou o Falcon LLM, um modelo de linguagem grande (LLM) fundamental com 40 bilhões de parâmetros. O TII é um importante centro de pesquisa global dedicado a expandir as fronteiras do conhecimento. A equipe de cientistas, pesquisadores e engenheiros da TII trabalha para fornecer ciência de descoberta e tecnologias transformadoras. O trabalho da TII se concentra em avanços que irão preparar nossa sociedade para o futuro. Treinado em 1 trilhão de tokens, TII Falcon LLM apresenta desempenho de alto nível, mantendo-se incrivelmente econômico. O Falcon-40B iguala o desempenho de outros LLMs de alto desempenho e é o modelo de código aberto mais bem classificado no público Placar de líderes Abraçando o rosto aberto LLM. Ele está disponível como código aberto em dois tamanhos diferentes – Falcon-40B e Falcon-7B e foi construído do zero usando pré-processamento de dados e trabalhos de treinamento de modelo construídos em Amazon Sage Maker. O Falcon 40B de código aberto permite que os usuários construam e personalizem ferramentas de IA que atendem às necessidades exclusivas dos usuários, facilitando a integração perfeita e garantindo a preservação a longo prazo dos ativos de dados. Os pesos do modelo estão disponíveis para download, inspeção e implantação em qualquer lugar.

A partir de 7 de junho, os dois Falcon LLMs também estarão disponíveis no Amazon SageMaker JumpStart, o hub de aprendizado de máquina (ML) da SageMaker que oferece modelos pré-treinados, algoritmos integrados e modelos de solução pré-criados para ajudá-lo a começar a usar o ML rapidamente. Você pode implantar e usar os Falcon LLMs com alguns cliques em Estúdio SageMaker ou programaticamente através do SDK Python do SageMaker. Para implantar e executar inferência em Falcon LLMs, consulte o Introdução ao SageMaker JumpStart - Geração de texto com Falcon LLMs caderno de exemplo.

Dr. Ebtesam Almazrouei, Diretor Executivo – Pesquisador Chefe Interino de IA da Unidade AI-Cross Center e Líder de Projeto para Projetos LLM no TII, compartilha:

“Temos o orgulho de anunciar o lançamento oficial de código aberto do Falcon-40B, o modelo de linguagem de código aberto mais bem classificado do mundo. O Falcon-40B é um modelo excepcional de código aberto com parâmetros 40B, projetado especificamente como um modelo somente de decodificador causal. Ele foi treinado em um vasto conjunto de dados de 1,000 bilhões de tokens, incluindo o RefinedWeb aprimorado com corpora selecionados. O modelo é disponibilizado sob a licença Apache 2.0, garantindo sua acessibilidade e usabilidade. O Falcon-40B ultrapassou modelos renomados como LLaMA-65B, StableLM e MPT na tabela de classificação pública mantida pela Hugging Face. A arquitetura do Falcon-40B é otimizada para inferência, incorporando FlashAttention e técnicas de multiconsulta.”

“Esta etapa reflete nossa dedicação em ultrapassar os limites da inovação de IA e nível de prontidão tecnológica para envolvimento da comunidade, educação, aplicativos do mundo real e colaboração. Continua o Dr. Ebtesam. “Ao lançar o Falcon-40B como um modelo de código aberto, oferecemos a pesquisadores, empreendedores e organizações a oportunidade de aproveitar seus recursos excepcionais e impulsionar avanços em soluções orientadas por IA, desde saúde até espaço, finanças, manufatura e biotecnologia; as possibilidades de soluções baseadas em IA são ilimitadas. Para acessar o Falcon-40B e explorar seu notável potencial, visite FalconLLM.tii.ae. Junte-se a nós para alavancar o poder do Falcon-40B para moldar o futuro da IA ​​e revolucionar as indústrias”

Nesta postagem, nos aprofundamos com o Dr. Almazrouei sobre o treinamento Falcon LLM no SageMaker, curadoria de dados, otimização, desempenho e próximas etapas.

Uma nova geração de LLMs

LLMs são algoritmos de software treinados para completar sequências de texto naturais. Devido ao seu tamanho e ao volume de dados de treinamento com os quais eles interagem, os LLMs têm habilidades impressionantes de processamento de texto, incluindo resumo, resposta a perguntas, aprendizado no contexto e muito mais.

No início de 2020, organizações de pesquisa em todo o mundo deram ênfase ao tamanho do modelo, observando que a precisão estava correlacionada com o número de parâmetros. Por exemplo, GPT-3 (2020) e BLOOM (2022) apresentam cerca de 175 bilhões de parâmetros, Gopher (2021) possui 230 bilhões de parâmetros e MT-NLG (2021) 530 bilhões de parâmetros. Em 2022, Hoffman et ai. observaram que o equilíbrio atual da computação entre os parâmetros do modelo e o tamanho do conjunto de dados estava abaixo do ideal e publicaram leis de escala empírica sugerindo que equilibrar o orçamento de computação para modelos menores treinados em mais dados poderia levar a modelos de melhor desempenho. Eles implementaram sua orientação no modelo Chinchilla (70) de parâmetro 2022B, que superou modelos muito maiores.

Treinamento LLM no SageMaker

O SageMaker é uma coleção de APIs gerenciadas para desenvolver, treinar, ajustar e hospedar modelos de aprendizado de máquina (ML), incluindo LLMs. Vários clientes confiam no SageMaker para suas cargas de trabalho LLM, como IA de estabilidade, Laboratórios AI21, Abraçando o rosto e LG AI. Treinamento SageMaker provisiona clusters de computação com código e configuração de hardware definidos pelo usuário. Os trabalhos de computação são cobrados por execução, proporcional ao segundo, o que significa que os usuários não são cobrados pela capacidade da GPU quando não usam o serviço. A TII usou clusters transitórios fornecidos pela API de treinamento do SageMaker para treinar o Falcon LLM, com instâncias de até 48 ml.p4d.24xlarge, acumulando em 384 GPUs NVIDIA A100. Agora, a TII está treinando o próximo Falcon LLM e escalou seu treinamento para 3,136 GPU A100 (392 instâncias ml.p4d).

Uma quantidade sem precedentes de inovações personalizadas entrou em todas as camadas do projeto para elevar o nível de qualidade científica e velocidade de treinamento. Nas próximas seções, descrevemos as otimizações realizadas pelo TII em todas as camadas do sistema de treinamento de aprendizado profundo (DL).

Curadoria de dados escalonável

Os LLMs de última geração obtêm força do tamanho e da qualidade dos dados de treinamento. A equipe colocou um cuidado específico na criação de um conjunto de dados de trilhões de tokens de alta qualidade. Vários trabalhos de CPU de treinamento do SageMaker transformaram petabytes de dados da Web baratos e escalonáveis ​​em um conjunto de dados de treinamento seguro e com curadoria. Sistemas automatizados filtraram e desduplicaram os dados; por exemplo, classificadores de ML foram usados ​​para filtrar palavrões. Os trabalhos de CPU executados em ml.c5.18xlarge (72 vCPUs, 144 GB de RAM) foram instanciados em algumas chamadas de API por meio do SageMaker Training para executar tarefas de transformação de dados. A equipe usou tarefas de CPU de instância única e de várias instâncias para diferentes casos de uso. Algumas dessas tarefas usavam centenas de tarefas paralelas de arquitetura sem compartilhamento (SNA), cada uma em uma única máquina, e para tarefas que exigiam sincronização entre trabalhadores, a equipe lançou tarefas de várias instâncias, acumulando dezenas de instâncias e milhares de vCPUs. Curiosamente, em uma tarefa de preparação de conjunto de dados downstream, a equipe subiu para 257 ml.c5.18xlarge em um único trabalho de treinamento do SageMaker, acumulando 18,504 vCPU e 37 TB de memória.

Maximizando o rendimento do treinamento

Para minimizar os custos de treinamento e o tempo de lançamento no mercado, a equipe buscou várias direções de otimização para acelerar a velocidade de treinamento proporcional aos tokens de treinamento processados ​​por segundo e medidos em TFLOPs/GPU. A equipe usou uma estrutura de treinamento LLM paralela 3D totalmente personalizada, com camadas otimizadas personalizadas escritas em código de GPU compilado. A equipe chegou ao ponto de escrever sua própria implementação personalizada de multiplicação de matrizes para ganhar ainda mais velocidade! A equipe também desenvolveu uma lógica que adapta a comunicação paralela à topologia de rede subjacente. Durante seus experimentos iniciais de dimensionamento, a TII conseguiu atingir 166 TFLOPs/GPU em um modelo de 147B em 256 GPUs e 173 TFLOPs/GPU em um modelo de 13B em 16 GPUs. a hora do teste no final de 2022.

Armazenamento sem servidor

O treinamento LLM é de armazenamento intensivo; vários terabytes de dados de treinamento precisam ser canalizados para o cluster de treinamento, e vários terabytes de pontos de verificação de modelo voltam regularmente do cluster para o armazenamento permanente. Os pontos de verificação também precisam alcançar o cluster de treinamento o mais rápido possível no caso de reinicialização do trabalho. Na computação tradicional de alto desempenho (HPC), os nós de computação são conectados a sistemas de arquivos distribuídos, que fornecem E/S de alto desempenho e taxa de transferência por meio de uma interface semelhante a POSIX. Na AWS, os clientes usam regularmente o Amazon FSx para Lustre sistema de arquivos para esta finalidade (para mais detalhes, consulte Acelere o treinamento no Amazon SageMaker usando os sistemas de arquivos Amazon FSx for Luster e Amazon EFS), e também documentamos o uso autogerenciado do BeeGFS em um estudo de caso de visão computacional distribuída. Devido ao foco em custos e simplicidade operacional, a equipe decidiu não implementar e operar servidores de sistema de arquivos, mas, em vez disso, assumiu o desafio de construir exclusivamente em cima do armazenamento de objetos sem servidor Serviço de armazenamento simples da Amazon (Amazônia S3). Uma classe de conjunto de dados S3 personalizada foi criada usando o SDK da AWS para Python (Boto3) e forneceu desempenho satisfatório, permitindo que os cientistas fizessem iterações autônomas em engenharia de E/S e ciência de modelo dentro da mesma base de código.

Inovação do lado do cliente

Um projeto LLM raramente consiste em um único trabalho de treinamento; numerosos trabalhos são necessários para realizar testes e experiências iniciais. Ao longo do treinamento de produção principal, vários trabalhos podem ser encadeados, por exemplo, para atualizar configurações ou versões de software, implantar patches ou recuperar-se de falhas. Os cientistas da TII realizaram engenharia significativa para construir clientes personalizados adaptados ao treinamento LLM. Um cliente iniciador foi construído sobre o SDK de treinamento do SageMaker para reunir várias funcionalidades em um comando, por exemplo, controle de versão de código, criação de imagem do Docker e inicialização de trabalho. Além disso, um AWS Lambda A função de computação sem servidor foi projetada para observar, monitorar e intervir nos trabalhos conforme necessário.

Usando bots do Slack para auditorias de qualidade de inferência

No final do treinamento, a equipe implantou o modelo em um Terminal de GPU de hospedagem SageMaker para interação em tempo real. A equipe chegou a criar um bot do Slack para dialogar, obter feedback realista e realizar auditorias de qualidade qualitativa do modelo.

Monitoramento de treinamento e desempenho

O treinamento de um LLM requer grandes quantidades de recursos computacionais, incluindo CPU, GPU e recursos de memória. Portanto, a TII precisava monitorar o desempenho e o tempo ocioso do trabalho de treinamento para garantir a utilização ideal dos recursos computacionais e sua relação custo-benefício.

Para construir uma solução de monitoramento automatizado, a TII usou Amazon CloudWatch alarmes para monitorar a utilização de GPU, CPU e memória para os trabalhos de treinamento. O CloudWatch coleta dados brutos e os processa em métricas legíveis quase em tempo real das instâncias de contêiner subjacentes usadas no trabalho de treinamento do SageMaker. Depois disso, definimos limites para cada uma dessas métricas e, se alguma métrica ficar abaixo do limite, um alarme é acionado. Este alarme notifica a equipe da TII sobre a baixa utilização de recursos, permitindo que eles tomem ações corretivas para corrigir as restrições de utilização de recursos.

Além de monitorar a utilização de recursos, o TII também pode monitorar o tempo ocioso dos recursos de trabalho de treinamento. Se os recursos do trabalho de treinamento estivessem ociosos por um período prolongado, isso poderia indicar um gargalo em qualquer estágio do ciclo de treinamento e exigir investigação manual. Em alguns casos, a utilização de recursos ainda era relativamente ótima, mas o processo de treinamento em si não estava progredindo. Para esses casos, a TII integrou os alarmes do CloudWatch com as funções do Lambda para consultar e ler os logs de treinamento gerados e, em seguida, executar ações automáticas com base no erro gerado ou na ociosidade do processo de geração de log (o cluster é interrompido). O alarme aciona uma ação para interromper o trabalho de treinamento, o que garante que a TII não incorra em custos desnecessários quando os recursos não estiverem sendo utilizados.

Conclusão

Usando o SageMaker combinado com inovação personalizada e proprietária, a TII conseguiu treinar um modelo que é o estado da arte em várias dimensões: inovação tecnológica, qualidade científica, velocidade de treinamento e também simplicidade operacional.

“O lançamento do Falcon 40B dos Emirados Árabes Unidos, o modelo de IA de código aberto mais bem classificado do mundo, ilustra a liderança em tecnologia e abre caminho para a inovação impulsionada por IA no mercado regular.ion” indica o Dr. Ebtesam Almazrouei; acrescentando que “demonstramos nosso compromisso com os objetivos descritos na Estratégia Nacional de IA 2031. Nosso envolvimento ativo nos avanços tecnológicos globais, representado pelo Falcon-40B, desempenha um papel crucial em nossa busca por uma economia baseada no conhecimento. Por meio de investimentos e desenvolvimento em soluções de IA, pretendemos criar novas oportunidades de crescimento econômico, progresso social e avanços educacionais.

“A natureza de código aberto do Falcon-40B reflete nossa dedicação à colaboração, transparência, inovação e pesquisa no campo da IA. Acreditamos na democratização dos recursos avançados de tecnologia de IA, tornando o Falcon-40B acessível a pesquisadores e organizações em todo o mundo”.

“Olhando para o futuro, continuaremos a contribuir para os avanços da IA ​​e da tecnologia, com os próximos modelos em andamento. Além disso, promoveremos ativamente a adoção de tecnologia avançada de IA em organizações e negócios em nosso país, promovendo crescimento e prosperidade alinhados com nossos objetivos estratégicos”.

– Dr. Almazrouei

Para saber mais sobre o Falcon LLM, confira o site FalconLLM.tii.ae e o cartão modelo em Abraçando o Rosto!


Sobre os autores

Dr.Ebtesam Almazrouei é o diretor executivo, pesquisador-chefe interino de IA e fundador da Al-Cross Center Unit no Technology Innovation Institute (TII). Como fundador da Al-Cross Center Unit no Technology Innovation Institute (TII), o Dr. Almazrouei desempenhou um papel fundamental na formação dos recursos de IA do TII. Sua visão estratégica e experiência em IA e aprendizado de máquina a capacitaram a liderar iniciativas de pesquisa inovadoras e promover colaborações multifuncionais, resultando na entrega de soluções inovadoras de IA em vários setores.

Uma das realizações notáveis ​​da Dra. Almazrouei é seu papel instrumental no desenvolvimento do Falcon 40B, um LLM de ponta que conquistou reconhecimento global. O desempenho excepcional do Falcon 40B o classificou como o LLM número um globalmente na tabela de classificação do Hugging Face em maio de 2023. Além disso, ela liderou o desenvolvimento de Noor, o maior modelo de linguagem árabe (LLM) maior do mundo, lançado em abril de 2022.

A Dra. Almazrouei é reconhecida mundialmente por suas contribuições para a IA e foi destaque na lista de mulheres líderes em IA no mundo em 2023, ao lado de outras mulheres ilustres no campo. Ela também é defensora de iniciativas de sustentabilidade e AI for Good, bem como presidente geral do Abu Dhabi AI Connect e presidente do TPC de muitas conferências internacionais do IEEE.

Suas contribuições vão além de seu trabalho na TII, onde ela lidera o subcomitê de especialistas em big data do Conselho dos Emirados Árabes Unidos para IA e Blockchain e é membro do conselho diretor mundial do Wireless World Research Forum (WWRF). Ela é uma autora científica, inventora de patentes, empresária e palestrante renomada, conhecida por seus discursos principais em cúpulas de prestígio, como o AI Summit em Londres, o World AI Cannes Festival e o Tech Summits.

Will Badr é um Senior Manager AI/ML Solutions Architects com sede em Dubai – Emirados Árabes Unidos, que trabalha como parte da equipe global Amazon Machine Learning. Will é apaixonado por usar a tecnologia de maneiras inovadoras para impactar positivamente a comunidade. Nas horas vagas gosta de mergulhar, jogar futebol e explorar as ilhas do Pacífico.

Olivier Cruchant é um arquiteto de soluções especialista em aprendizado de máquina na AWS, com sede na França. A Olivier ajuda os clientes da AWS – de pequenas startups a grandes empresas – a desenvolver e implantar aplicativos de aprendizado de máquina de nível de produção. Em seu tempo livre, ele gosta de ler trabalhos de pesquisa e explorar o deserto com amigos e familiares.

local_img

Inteligência mais recente

local_img