Inteligência de dados generativa

Melhore o desempenho do LLM com feedback humano e de IA no Amazon SageMaker para Amazon Engineering | Amazon Web Services

Data:

A equipe de Design e Construção da Amazon EU (Amazon D&C) é a equipe de engenharia que projeta e constrói armazéns da Amazon. A equipe navega por um grande volume de documentos e localiza as informações corretas para garantir que o design do armazém atenda aos mais altos padrões. Na postagem Uma solução generativa baseada em IA no Amazon SageMaker para ajudar o projeto e a construção da Amazon EU, apresentamos uma solução de bot para responder perguntas usando um Geração Aumentada de Recuperação (RAG) pipeline com um ajuste fino modelo de linguagem grande (LLM) para que a Amazon D&C recupere com eficiência informações precisas de um grande volume de documentos não organizados e forneça serviços oportunos e de alta qualidade em seus projetos de construção. A equipe da Amazon D&C implementou a solução em um piloto para engenheiros da Amazon e coletou feedback dos usuários.

Nesta postagem, compartilhamos como analisamos os dados de feedback e identificamos limitações de precisão e alucinações fornecidas pelo RAG, e usamos a pontuação da avaliação humana para treinar o modelo por meio de aprendizagem de reforço. Para aumentar as amostras de treinamento para um melhor aprendizado, também usamos outro LLM para gerar pontuações de feedback. Este método abordou a limitação do RAG e melhorou ainda mais a qualidade da resposta do bot. Apresentamos o processo de aprendizagem por reforço e os resultados do benchmarking para demonstrar a melhoria do desempenho do LLM. A solução utiliza JumpStart do Amazon SageMaker como o serviço principal para implantação de modelo, ajuste fino e aprendizado por reforço.

Colete feedback dos engenheiros da Amazon em um projeto piloto

Depois de desenvolver a solução descrita em Uma solução generativa baseada em IA no Amazon SageMaker para ajudar o projeto e a construção da Amazon EU, a equipe da Amazon D&C implantou a solução e executou um projeto piloto com engenheiros da Amazon. Os engenheiros acessaram o sistema piloto por meio de um aplicativo web desenvolvido pela Iluminado, conectado ao pipeline RAG. No pipeline, usamos Serviço Amazon OpenSearch para o banco de dados vetorial e implantou um modelo Mistral-7B-Instruct ajustado no Amazon SageMaker.

Um dos principais objetivos do piloto é coletar feedback dos engenheiros da Amazon e usar o feedback para reduzir ainda mais as alucinações do LLM. Para conseguir isso, desenvolvemos um módulo de coleta de feedback na UI, conforme mostrado na figura a seguir, e armazenamos as informações da sessão web e o feedback do usuário em Amazon DynamoDB. Por meio da IU de coleta de feedback, os engenheiros da Amazon podem selecionar entre cinco níveis de satisfação: discordo totalmente, discordo, neutro, concordo e concordo totalmente, correspondendo às pontuações de feedback de 1 a 5. Eles também podem fornecer uma resposta melhor à pergunta ou comentar por que a resposta do LLM não é satisfatória.

IU de feedback humano

Durante o piloto, os usuários forneceram 118 respostas de feedback. O gráfico a seguir mostra a distribuição de negativa para positiva. Observamos que as respostas incorretas marcadas pelo feedback negativo (discordo e discordo totalmente) são 45% do total de feedback (53 de 118). Alguns dos erros (cerca de 10% dos comentários negativos e 7.5% das respostas gerais) podem ser resolvidos através da educação do usuário e da engenharia imediata. Além disso, podemos resolver o problema com a solução de ajuste fino e aprendizagem por reforço do LLM, descrita na próxima seção.

Feedback do usuário do piloto

Alguns usuários simplesmente deixaram uma nota, como “Ótimo!” para as respostas concordo totalmente, ou “Não responde à pergunta”, para as respostas discordo totalmente. Outros usuários forneceram pontuações e explicaram como justificam as respostas do LLM em suas notas. No exemplo a seguir, o usuário forneceu especificamente o documento e o conteúdo adequados para corrigir a alucinação do LLM.

Questão Quantos lugares de estacionamento temos?
Resposta do bot

Com base no contexto dado, não temos informação suficiente para determinar o número de lugares de estacionamento. O contexto discute o tamanho mínimo das vagas de estacionamento e os requisitos para níveis de iluminação externa, mas não fornece um número específico de vagas de estacionamento.

**Você pode consultar mais explicações nos seguintes recursos:**

*ARS GEN 10.0/05.01.02. Critérios de Design e Apêndices/Pacote de Desempenho Critérios de Design Classificáveis ​​AR v20.1.1.pdf – página: 10

*ARS GEN 10.0/05.01.02. Critérios de Design e Apêndices/Pacote de Desempenho Critérios de Design Classificáveis ​​AR v20.1.1.pdf – página: 79

Pontuação do usuário Discordo fortemente
Notas do usuário Isto é especificado na página 21 da seção de critérios de projeto 01 13 10

Melhore a resposta do bot com ajuste fino supervisionado e aprendizado por reforço

A solução consiste em três etapas de ajuste fino:

  1. Realize o ajuste fino supervisionado usando dados rotulados. Este método foi descrito em Uma solução generativa baseada em IA no Amazon SageMaker para ajudar o projeto e a construção da Amazon EU.
  2. Colete feedback do usuário para rotular os pares de perguntas e respostas para ajustes adicionais do LLM.
  3. Quando os dados de treinamento estiverem prontos, ajuste ainda mais o modelo usando aprendizado por reforço a partir do feedback humano (RLF).

RLHF é amplamente utilizado em aplicações de inteligência artificial generativa (IA) e LLM. Ele incorpora feedback humano na função de recompensas e treina o modelo com um algoritmo de aprendizagem por reforço para maximizar as recompensas, o que faz com que o modelo execute tarefas mais alinhadas com os objetivos humanos. O diagrama a seguir mostra o pipeline das etapas.

Fluxo de trabalho de ajuste fino

Testamos a metodologia usando os documentos Amazon D&C com um modelo Mistral-7B no SageMaker JumpStart.

Ajuste fino supervisionado

Na postagem anterior, demonstramos como o modelo Falcon-7B ajustado supera o pipeline RAG e melhora a qualidade e a precisão da resposta do bot de controle de qualidade. Para este post, realizamos o ajuste fino supervisionado no modelo Mistral-7B. O ajuste fino supervisionado utilizou a técnica PEFT/LoRA (LoRA_r = 512, LoRA_alpha = 1024) em 436,207,616 parâmetros (5.68% do total de 7,677,964,288 parâmetros). O treinamento foi realizado em um nó p3.8x com 137 amostras geradas sinteticamente pelo LLM e validadas por humanos; o processo converge bem após 20 épocas, conforme mostrado na figura a seguir.

Processo de treinamento SFT

O modelo ajustado foi validado por 274 amostras, e os resultados da inferência foram comparados com as respostas de referência pelo escore de similaridade semântica. A pontuação é 0.8100, superior à pontuação de 0.6419 do RAG tradicional.

Colete feedback humano e de IA para aprendizado por reforço

Para o RLHF, é essencial uma quantidade suficiente de amostras de formação de alta qualidade rotuladas por especialistas no assunto (PME). No entanto, rótulos humanos de baixa qualidade provavelmente causarão pior desempenho do modelo do que o modelo original após o treinamento RLHF. O tempo das PME é um recurso escasso em qualquer organização; analisar centenas ou milhares de respostas LLM e fornecer feedback exige um investimento de tempo significativo por parte das PME que podem não ter um retorno claro do investimento.

Para enfrentar esse desafio, adotamos o aprendizagem por reforço com feedback de IA (RLAIF). A RLAIF emprega um assistente de IA (outro LLM) para fornecer pontuações de avaliação, em vez de humanos. Nesta abordagem de aprendizagem híbrida, o agente de aprendizagem refina as ações não apenas com base na interação com um ser humano, mas também no feedback fornecido por outro modelo de IA. É muito mais escalável fornecer dados de formação suficientes para a aprendizagem por reforço e muito menos subjetivo porque a formação não depende de preferências específicas de um pequeno grupo de PME. As PME ainda podem estar envolvidas, mas apenas para supervisionar o processo e examinar a qualidade do feedback da IA. Isto reduz tremendamente a carga de trabalho das PME, porque as pontuações e rótulos gerados pela IA são muito menos complicados para as PME analisarem, filtrarem e classificarem.

Neste caso de uso, fornecemos o seguinte prompt para um modelo Antrópico Claude 2 para gerar as pontuações de avaliação como amostras de treinamento para a etapa de aprendizagem por reforço:

"""

Human:

I am going to provide you with a question, a reference answer, and an machine generated answer to the question.

question: {question}

reference answer: {reference_answer}

machine_answer: {machine_answer}

Please analyze the question, the reference answer, and the machine generated answer to determine if the machine generated answer semantically matches the reference answer.

First think through your answer inside of <thinking> tags, then assign a score between 0.0 and 5.0 based on how well the machine answer matches the reference answer. Score 5.0 means a completely match, score 0.0 means a completely mismatch. Answer the score inside of <scoring> tags.

Also provide the reason to give this score inside of <reason> tags.

Assistant: <thinking>

"""

O modelo Claude 2 gera uma nota de avaliação e um comentário sobre o porquê da nota ser dada, conforme exemplo a seguir.

Questão O que significa 'Fit Out Works' neste contexto?
Resposta de referência Fit Out Works refere-se a Trabalhos realizados sob o contrato de construção por ou em nome da Amazon por meio do Desenvolvedor até a Primeira Data de Recebimento de uma posição nocional de Desenvolvimento de Shell e Core Base-build. Esses trabalhos incluem os ajustes necessários da Amazon, instalações grandes e personalizados
Resposta do bot de controle de qualidade Fit Out Works refere-se a Trabalhos realizados sob o contrato de construção por ou em nome da Amazon por meio do Desenvolvedor até a Primeira Data de Recebimento de uma posição nocional de Desenvolvimento de Shell e Core Base-build.
Pontuação de IA 4.5
Comentário de IA A resposta da máquina fornece as principais informações da resposta padrão - que Fit Out Works refere-se a trabalhos realizados sob o contrato de construção por ou em nome da Amazon por meio do desenvolvedor até a primeira data de recebimento de uma posição de construção de base de desenvolvedor nocional. . Os detalhes adicionais sobre a inclusão dos ajustes necessários da Amazon, instalações grandes e personalizações são relevantes e ajudam a fornecer mais contexto, por isso classifiquei a resposta da máquina como 4.5 de 5. Ela captura a essência da resposta padrão e fornece alguns detalhes extras úteis.

Das 274 questões de validação, o modelo supervisionado ajustado gerou 159 respostas com pontuação de IA superior a 4. Observamos 60 respostas com pontuação inferior a 3; há espaço para melhorar a qualidade geral da resposta.

Pontuação de feedback antes do RLHF

As PMEs da Amazon Engineering validaram esse feedback de IA e reconheceram os benefícios do uso de pontuações de IA. Sem feedback da IA, as PME precisariam de algum tempo para rever e analisar cada resposta do LLM para identificar as respostas cortadas e as alucinações, e para julgar se o LLM está a devolver conteúdos e conceitos-chave corretos. O feedback da IA ​​fornece pontuações de IA automaticamente e permite que as PMEs usem filtragem, classificação e agrupamento para validar as pontuações e identificar tendências nas respostas. Isto reduz o tempo médio de revisão das PME em 80%.

Aprendizagem por reforço a partir de feedback humano e de IA

Quando os exemplos de treinamento estiverem prontos, usamos o algoritmo de otimização de política proximal (PPO) para realizar aprendizagem por reforço. O PPO usa um método de gradiente de política, que executa pequenos passos para atualizar a política no processo de aprendizagem, para que os agentes de aprendizagem possam alcançar com segurança a rede de política ideal. Isto torna o processo de treinamento mais estável e reduz a possibilidade de divergência.

Durante o treinamento, primeiro usamos os dados rotulados por humanos e IA para construir um modelo de recompensa, que será usado para orientar a atualização dos pesos no processo de aprendizagem. Para este caso de uso, selecionamos um modelo de recompensa baseado em destilroberta e o treinamos por amostras no seguinte formato:

[Instruction, Chosen_response, Rejected_response]

A seguir está um exemplo de registro de treinamento.

Instrução De acordo com o contexto, o que é especificado para um design inclusivo e acessível?
Resposta_escolhida Crédito BREEAM HEA06 – design inclusivo e acessível – O edifício foi concebido para ser adequado à finalidade, apropriado e acessível a todos os potenciais utilizadores. Uma estratégia de acesso é desenvolvida de acordo com a lista de verificação BREEAM A3
Resposta_rejeitada O contexto afirma que

O modelo de recompensa é treinado com a taxa de aprendizagem 1e-5. Conforme mostrado no gráfico a seguir, o poço de treinamento converge após 10 épocas.

Processo de treinamento RLHF

Em seguida, o modelo de recompensa é usado para aprendizagem por reforço. Para este caso de uso, usamos PEFT/LoRA para acelerar o aprendizado. O LoRA_r é 32 e LoRA_alpha é 64. O aprendizado baseado em PPO está em uma taxa de 1.41e-5 em três épocas. O treinamento de reforço é altamente volátil e muito sensível aos dados do rótulo e aos dados de feedback. Usamos a métrica recompensa_mean, a recompensa média obtida do ambiente pelo monitoramento específico do modelo de recompensa, para observar o processo de aprendizagem.

Após o RLAIF, podemos ver o número de respostas de bots com pontuações positivas (acima de 3) aumentar de 78.1% para 85.5%, e aquelas com pontuações negativas (abaixo de 3) diminuir de 21.9% para 14.5%. No total, a pontuação média do feedback da IA ​​aumenta até 8%, de 3.9 para 4.2.

Melhoria por RLAIF

Você pode ver a melhoria no exemplo a seguir.

Questão Para áreas de piso ladrilhadas, que betonilha é necessária?
Referência O piso de betonilha é aplicável apenas em áreas com piso cerâmico. Consulte os desenhos da série A-32 para ver onde os pisos são aplicáveis.
Resposta do bot antes do RLAIF O piso de betonilha é aplicável apenas em
Pontuação AI antes do RLAIF 3
Resposta do bot após RLAIF O piso de betonilha é aplicável apenas em áreas ladrilhadas. Consulte os desenhos da série A-32 para ver onde o piso de cerâmica é aplicável.
Pontuação AI após RLAIF 4.5

Conclusão

Esta postagem é uma continuação do nosso trabalho com a equipe de Design e Construção da Amazon EU, conforme discutido em Uma solução generativa baseada em IA no Amazon SageMaker para ajudar o projeto e a construção da Amazon EU. Nesta postagem, mostramos como geramos dados de feedback humano e de IA para ajustar o modelo Mistral-7B com aprendizado por reforço. O modelo após RLAIF forneceu melhor desempenho para o bot de resposta a perguntas da Amazon Engineering, melhorou a pontuação de feedback de IA em 8%. No projeto piloto da equipe Amazon D&C, o uso do RLAIF reduziu a carga de trabalho de validação para PMEs em cerca de 80%. Como próxima etapa, ampliaremos essa solução conectando-nos à infraestrutura de dados da Amazon Engineering e projetaremos uma estrutura para automatizar o processo de aprendizado contínuo com um ser humano no circuito. Também melhoraremos ainda mais a qualidade do feedback da IA ​​ajustando o modelo de prompt.

Através deste processo, aprendemos como melhorar ainda mais a qualidade e o desempenho das tarefas de resposta a perguntas através do RLHF e do RLAIF.

  • A validação e o aumento humanos são essenciais para fornecer resultados precisos e responsáveis ​​do LLM. O feedback humano pode ser usado no RLHF para melhorar ainda mais a resposta do modelo.
  • O RLAIF automatiza o ciclo de avaliação e aprendizagem. O feedback gerado pela IA é menos subjetivo porque não depende de uma preferência específica de um pequeno grupo de PME.
  • O RLAIF é mais escalável para melhorar a qualidade do bot através de aprendizagem contínua por reforço, ao mesmo tempo que minimiza os esforços exigidos das PME. É especialmente útil para desenvolver soluções de IA generativa de domínio específico em grandes organizações.
  • Este processo deve ser feito regularmente, especialmente quando novos dados de domínio estiverem disponíveis para serem cobertos pela solução.

Neste caso de uso, usamos o SageMaker JumpStart para testar vários LLMs e experimentar várias abordagens de treinamento de LLM. Ele acelera significativamente o feedback da IA ​​e o ciclo de aprendizagem com eficiência e qualidade maximizadas. Para o seu próprio projeto, você pode introduzir a abordagem humana para coletar feedback dos usuários ou gerar feedback de IA usando outro LLM. Depois, você pode seguir o processo de três etapas definido nesta postagem para ajustar seus modelos usando RLHF e RLAIF. Recomendamos experimentar os métodos usando SageMaker JumpStart para acelerar o processo.


Sobre o autor

YunfeiYun Fei Bai é Arquiteto de Soluções Sênior na AWS. Com experiência em IA/ML, ciência de dados e análise, Yunfei ajuda os clientes a adotar os serviços da AWS para fornecer resultados de negócios. Ele projeta soluções de AI/ML e análise de dados que superam desafios técnicos complexos e impulsionam objetivos estratégicos. Yunfei é PhD em Engenharia Elétrica e Eletrônica. Fora do trabalho, Yunfei gosta de ler e ouvir música.

Elad_fotoElad Dwek é gerente de tecnologia de construção na Amazon. Com experiência em construção e gerenciamento de projetos, Elad ajuda equipes a adotar novas tecnologias e processos baseados em dados para entregar projetos de construção. Ele identifica necessidades e soluções e facilita o desenvolvimento dos atributos sob medida. Elad possui MBA e bacharelado em Engenharia Estrutural. Fora do trabalho, Elad gosta de ioga, marcenaria e viajar com a família.

Luca_fotoLuca Cerabone é engenheiro de Business Intelligence na Amazon. Com base na sua experiência em ciência e análise de dados, Luca cria soluções técnicas personalizadas para atender às necessidades exclusivas de seus clientes, conduzindo-os a processos mais sustentáveis ​​e escaláveis. Com um mestrado em Ciência de Dados, Luca gosta de se envolver em projetos DIY, jardinagem e experimentar delícias culinárias nos seus momentos de lazer.

local_img

Inteligência mais recente

local_img

Fale Conosco

Olá! Como posso ajudá-lo?