Inteligência de dados generativa

Melhores práticas para criar aplicativos generativos de IA na AWS | Amazon Web Services

Data:

IA generativa aplicações orientadas por modelos fundamentais (FMs) estão capacitando organizações com valor comercial significativo em experiência do cliente, produtividade, otimização de processos e inovações. No entanto, a adoção destes FMs envolve enfrentar alguns desafios importantes, incluindo resultados de qualidade, privacidade de dados, segurança, integração com dados da organização, custos e competências a fornecer.

Nesta postagem, exploramos diferentes abordagens que você pode adotar ao criar aplicativos que usam IA generativa. Com o rápido avanço dos FMs, é um momento emocionante para aproveitar o seu poder, mas também crucial para compreender como usá-los adequadamente para alcançar resultados de negócios. Fornecemos uma visão geral das principais abordagens de IA generativa, incluindo engenharia imediata, geração aumentada de recuperação (RAG) e personalização de modelo. Ao aplicar essas abordagens, discutimos as principais considerações sobre possíveis alucinações, integração com dados corporativos, qualidade de produção e custo. Ao final, você terá diretrizes sólidas e um fluxograma útil para determinar o melhor método para desenvolver seus próprios aplicativos alimentados por FM, com base em exemplos da vida real. Seja criando um chatbot ou uma ferramenta de resumo, você pode moldar FMs poderosos para atender às suas necessidades.

IA generativa com AWS

O surgimento dos FMs está criando oportunidades e desafios para as organizações que procuram utilizar estas tecnologias. Um desafio importante é garantir resultados coerentes e de alta qualidade que se alinhem com as necessidades do negócio, em vez de alucinações ou informações falsas. As organizações também devem gerenciar cuidadosamente os riscos de privacidade e segurança de dados que surgem do processamento de dados proprietários com FMs. As competências necessárias para integrar, personalizar e validar adequadamente os FMs nos sistemas e dados existentes são escassas. Construir grandes modelos de linguagem (LLMs) do zero ou personalizar modelos pré-treinados requer recursos computacionais substanciais, cientistas de dados especializados e meses de trabalho de engenharia. O custo computacional por si só pode facilmente chegar a milhões de dólares para treinar modelos com centenas de bilhões de parâmetros em enormes conjuntos de dados usando milhares de GPUs ou TPUs. Além do hardware, a limpeza e o processamento de dados, o design da arquitetura do modelo, o ajuste de hiperparâmetros e o desenvolvimento de pipeline de treinamento exigem habilidades especializadas de aprendizado de máquina (ML). O processo de ponta a ponta é complexo, demorado e proibitivamente caro para a maioria das organizações sem a infraestrutura necessária e o investimento em talentos. As organizações que não conseguem abordar adequadamente estes riscos podem enfrentar impactos negativos na reputação da sua marca, na confiança dos clientes, nas operações e nas receitas.

Rocha Amazônica é um serviço totalmente gerenciado que oferece uma escolha de modelos básicos (FMs) de alto desempenho de empresas líderes de IA como AI21 Labs, Anthropic, Cohere, Meta, Mistral AI, Stability AI e Amazon por meio de uma única API. Com a experiência sem servidor do Amazon Bedrock, você pode começar rapidamente, personalizar FMs de maneira privada com seus próprios dados e integrá-los e implantá-los em seus aplicativos usando ferramentas da AWS sem precisar gerenciar nenhuma infraestrutura. O Amazon Bedrock é qualificado para HIPAA e você pode usar o Amazon Bedrock em conformidade com o GDPR. Com o Amazon Bedrock, seu conteúdo não é usado para melhorar os modelos básicos e não é compartilhado com fornecedores de modelos terceirizados. Seus dados no Amazon Bedrock são sempre criptografados em trânsito e em repouso, e você pode criptografar recursos opcionalmente usando suas próprias chaves. Você pode usar AWS PrivateLink com o Amazon Bedrock para estabelecer conectividade privada entre seus FMs e sua VPC sem expor seu tráfego à Internet. Com Bases de conhecimento para Amazon Bedrock, você pode fornecer aos FMs e aos agentes informações contextuais das fontes de dados privadas da sua empresa para que o RAG forneça respostas mais relevantes, precisas e personalizadas. Você pode personalizar FMs de forma privada com seus próprios dados por meio de uma interface visual sem escrever nenhum código. Como um serviço totalmente gerenciado, o Amazon Bedrock oferece uma experiência de desenvolvedor simples para trabalhar com uma ampla variedade de FMs de alto desempenho.

Lançado em 2017, Amazon Sage Maker é um serviço totalmente gerenciado que simplifica a criação, o treinamento e a implantação de modelos de ML. Cada vez mais clientes estão construindo seus próprios FMs usando SageMaker, incluindo Stability AI, AI21 Labs, Hugging Face, Perplexity AI, Hippocratic AI, LG AI Research e Technology Innovation Institute. Para ajudá-lo a começar rapidamente, JumpStart do Amazon SageMaker oferece um hub de ML onde você pode explorar, treinar e implantar uma ampla seleção de FMs públicos, como modelos Mistral, modelos LightOn, RedPajama, Mosiac MPT-7B, FLAN-T5/UL2, GPT-J-6B/Neox-20B e Bloom/BloomZ, usando ferramentas SageMaker específicas, como experimentos e pipelines.

Abordagens comuns de IA generativa

Nesta seção, discutimos abordagens comuns para implementar soluções eficazes de IA generativa. Exploramos técnicas populares de engenharia imediata que permitem realizar tarefas mais complexas e interessantes com FMs. Também discutimos como técnicas como RAG e personalização de modelos podem aprimorar ainda mais as capacidades dos FMs e superar desafios como dados limitados e restrições computacionais. Com a técnica certa, você pode construir soluções de IA generativas poderosas e impactantes.

Engenharia imediata

A engenharia de prompts é a prática de projetar prompts cuidadosamente para aproveitar com eficiência os recursos dos FMs. Envolve o uso de prompts, que são pequenos trechos de texto que orientam o modelo para gerar respostas mais precisas e relevantes. Com engenharia imediata, você pode melhorar o desempenho dos FMs e torná-los mais eficazes para diversas aplicações. Nesta seção, exploramos técnicas como prompts de disparo zero e de poucos disparos, que adaptam rapidamente FMs a novas tarefas com apenas alguns exemplos, e prompts de cadeia de pensamento, que dividem o raciocínio complexo em etapas intermediárias. Esses métodos demonstram como a engenharia imediata pode tornar os FMs mais eficazes em tarefas complexas sem exigir o retreinamento do modelo.

Solicitação de tiro zero

Uma técnica de prompt zero-shot exige que os FMs gerem uma resposta sem fornecer quaisquer exemplos explícitos do comportamento desejado, contando apenas com seu pré-treinamento. A captura de tela a seguir mostra um exemplo de prompt zero-shot com o modelo Anthropic Claude 2.1 no console Amazon Bedrock.

Nestas instruções, não fornecemos nenhum exemplo. No entanto, o modelo pode compreender a tarefa e gerar resultados apropriados. Os prompts zero-shot são a técnica de prompt mais direta para começar ao avaliar um FM para o seu caso de uso. No entanto, embora os FMs sejam notáveis ​​com avisos de disparo zero, nem sempre podem produzir resultados precisos ou desejados para tarefas mais complexas. Quando os prompts de disparo zero são insuficientes, é recomendável fornecer alguns exemplos no prompt (avisos de poucos disparos).

Solicitação de poucos disparos

A técnica de prompt de poucos disparos permite que os FMs aprendam no contexto a partir dos exemplos dos prompts e executem a tarefa com mais precisão. Com apenas alguns exemplos, você pode adaptar rapidamente os FMs a novas tarefas sem grandes conjuntos de treinamento e orientá-los para o comportamento desejado. A seguir está um exemplo de prompt de algumas etapas com o modelo Cohere Command no console do Amazon Bedrock.

No exemplo anterior, o FM conseguiu identificar entidades a partir do texto de entrada (avaliações) e extrair os sentimentos associados. Os prompts rápidos são uma maneira eficaz de lidar com tarefas complexas, fornecendo alguns exemplos de pares de entrada-saída. Para tarefas simples, você pode dar um exemplo (1 tentativa), enquanto para tarefas mais difíceis, você deve fornecer três (3 tentativas) a cinco (5 tentativas) exemplos. Min et al. (2022) publicaram descobertas sobre aprendizagem em contexto que podem melhorar o desempenho da técnica de solicitação de poucos disparos. Você pode usar solicitações rápidas para diversas tarefas, como análise de sentimento, reconhecimento de entidade, resposta a perguntas, tradução e geração de código.

Solicitação de cadeia de pensamento

Apesar do seu potencial, a solicitação de poucos disparos tem limitações, especialmente quando se trata de tarefas complexas de raciocínio (como tarefas aritméticas ou lógicas). Essas tarefas exigem dividir o problema em etapas e depois resolvê-lo. Wei et al. (2022) introduziu a técnica de solicitação de cadeia de pensamento (CoT) para resolver problemas complexos de raciocínio por meio de etapas intermediárias de raciocínio. Você pode combinar CoT com solicitações de poucos disparos para melhorar os resultados em tarefas complexas. A seguir está um exemplo de tarefa de raciocínio usando prompts CoT de poucos disparos com o modelo Anthropic Claude 2 no console Amazon Bedrock.

Kojima et al. (2022) introduziu uma ideia de CoT de tiro zero usando as capacidades inexploradas de tiro zero dos FMs. Sua pesquisa indica que o CoT de disparo zero, usando o mesmo modelo de prompt único, supera significativamente o desempenho de FM de disparo zero em diversas tarefas de raciocínio de benchmark. Você pode usar a solicitação CoT zero-shot para tarefas de raciocínio simples, adicionando “Vamos pensar passo a passo” à solicitação original.

Reagir

A solicitação do CoT pode aprimorar as capacidades de raciocínio dos FMs, mas ainda depende do conhecimento interno do modelo e não considera nenhuma base de conhecimento ou ambiente externo para coletar mais informações, o que pode levar a problemas como alucinações. A abordagem ReAct (raciocínio e ação) aborda esta lacuna, ampliando o CoT e permitindo o raciocínio dinâmico usando um ambiente externo (como a Wikipedia).

Moderna

Os FMs têm a capacidade de compreender perguntas e fornecer respostas usando seu conhecimento pré-treinado. No entanto, falta-lhes a capacidade de responder a consultas que exijam acesso aos dados privados de uma organização ou a capacidade de realizar tarefas de forma autónoma. RAG e agentes são métodos para conectar esses aplicativos generativos alimentados por IA a conjuntos de dados corporativos, capacitando-os a fornecer respostas que considerem informações organizacionais e permitir a execução de ações com base em solicitações.

Geração Aumentada de Recuperação

A Geração Aumentada de Recuperação (RAG) permite personalizar as respostas de um modelo quando você deseja que o modelo considere novos conhecimentos ou informações atualizadas. Quando seus dados mudam com frequência, como inventário ou preços, não é prático ajustar e atualizar o modelo enquanto ele atende às consultas dos usuários. Para equipar o FM com informações proprietárias atualizadas, as organizações recorrem ao RAG, uma técnica que envolve a obtenção de dados de fontes de dados da empresa e o enriquecimento do prompt com esses dados para fornecer respostas mais relevantes e precisas.

Existem vários casos de uso em que o RAG pode ajudar a melhorar o desempenho do FM:

  • Resposta de perguntas – Os modelos RAG ajudam os aplicativos de resposta a perguntas a localizar e integrar informações de documentos ou fontes de conhecimento para gerar respostas de alta qualidade. Por exemplo, um aplicativo de resposta a perguntas poderia recuperar passagens sobre um tópico antes de gerar uma resposta resumida.
  • Chatbots e agentes de conversação – RAG permite que chatbots acessem informações relevantes de grandes fontes externas de conhecimento. Isso torna as respostas do chatbot mais informadas e naturais.
  • Assistência escrita – O RAG pode sugerir conteúdo, fatos e pontos de discussão relevantes para ajudá-lo a escrever documentos como artigos, relatórios e e-mails com mais eficiência. As informações recuperadas fornecem contexto e ideias úteis.
  • Resumo – O RAG pode encontrar documentos, passagens ou fatos de origem relevantes para aumentar a compreensão de um tópico por um modelo de resumo, permitindo gerar melhores resumos.
  • Escrita criativa e storytelling – RAG pode extrair ideias de enredo, personagens, cenários e elementos criativos de histórias existentes para inspirar modelos de geração de histórias de IA. Isso torna a saída mais interessante e fundamentada.
  • Tradução – RAG pode encontrar exemplos de como certas frases são traduzidas entre idiomas. Isto fornece contexto ao modelo de tradução, melhorando a tradução de frases ambíguas.
  • personalização – Em chatbots e aplicativos de recomendação, o RAG pode extrair contexto pessoal, como conversas anteriores, informações de perfil e preferências, para tornar as respostas mais personalizadas e relevantes.

Existem várias vantagens em usar uma estrutura RAG:

  • Alucinações reduzidas – A recuperação de informações relevantes ajuda a fundamentar o texto gerado em fatos e conhecimento do mundo real, em vez de textos alucinantes. Isso promove respostas mais precisas, factuais e confiáveis.
  • Cobertura – A recuperação permite que um FM cubra uma gama mais ampla de tópicos e cenários além de seus dados de treinamento, extraindo informações externas. Isso ajuda a resolver problemas de cobertura limitada.
  • Eficiência – A recuperação permite que o modelo concentre sua geração nas informações mais relevantes, em vez de gerar tudo do zero. Isso melhora a eficiência e permite o uso de contextos maiores.
  • Segurança – A recuperação de informações de fontes de dados exigidas e permitidas pode melhorar a governação e o controlo sobre a geração de conteúdos prejudiciais e imprecisos. Isso apoia uma adoção mais segura.
  • AMPLIAR – A indexação e a recuperação de grandes corpora permitem que a abordagem seja melhor dimensionada em comparação com a utilização do corpus completo durante a geração. Isso permite que você adote FMs em ambientes com recursos mais limitados.

O RAG produz resultados de qualidade, devido ao aumento do contexto específico do caso de uso diretamente dos armazenamentos de dados vetorizados. Comparado à engenharia imediata, produz resultados muito melhores com chances extremamente baixas de alucinações. Você pode criar aplicativos baseados em RAG em seus dados corporativos usando Amazona Kendra. RAG tem maior complexidade do que engenharia imediata porque você precisa ter habilidades de codificação e arquitetura para implementar esta solução. No entanto, as bases de conhecimento do Amazon Bedrock oferecem uma experiência RAG totalmente gerenciada e a maneira mais direta de começar a usar o RAG no Amazon Bedrock. As bases de conhecimento do Amazon Bedrock automatizam o fluxo de trabalho RAG de ponta a ponta, incluindo ingestão, recuperação e aumento de prompt, eliminando a necessidade de escrever código personalizado para integrar fontes de dados e gerenciar consultas. O gerenciamento de contexto de sessão é integrado para que seu aplicativo possa suportar conversas em vários turnos. As respostas da base de conhecimento vêm com citações de fontes para melhorar a transparência e minimizar alucinações. A maneira mais direta de construir um assistente com IA generativa é usar Amazon Q, que possui um sistema RAG integrado.

O RAG possui o mais alto grau de flexibilidade quando se trata de mudanças na arquitetura. Você pode alterar o modelo de incorporação, o armazenamento de vetores e o FM de forma independente, com impacto mínimo a moderado em outros componentes. Para saber mais sobre a abordagem RAG com Serviço Amazon OpenSearch e Amazon Bedrock, consulte Crie fluxos de trabalho RAG escaláveis ​​e sem servidor com um mecanismo vetorial para modelos Amazon OpenSearch Serverless e Amazon Bedrock Claude. Para saber como implementar o RAG com o Amazon Kendra, consulte Aproveitando o poder dos dados empresariais com IA generativa: insights do Amazon Kendra, LangChain e grandes modelos de linguagem.

Agentes

Os FMs podem compreender e responder a perguntas com base em seu conhecimento pré-treinado. No entanto, eles não conseguem realizar nenhuma tarefa do mundo real, como reservar um voo ou processar um pedido de compra, por conta própria. Isso ocorre porque essas tarefas exigem dados e fluxos de trabalho específicos da organização que normalmente precisam de programação personalizada. Estruturas como LangChain e certos FMs, como os modelos de Claude, fornecem recursos de chamada de função para interagir com APIs e ferramentas. No entanto, Agentes da Amazon Bedrock, um recurso de IA novo e totalmente gerenciado da AWS, tem como objetivo tornar mais simples para os desenvolvedores a criação de aplicativos usando FMs de próxima geração. Com apenas alguns cliques, ele pode dividir tarefas automaticamente e gerar a lógica de orquestração necessária, sem a necessidade de codificação manual. Os agentes podem conectar-se com segurança aos bancos de dados da empresa por meio de APIs, ingerir e estruturar os dados para consumo da máquina e aumentá-los com detalhes contextuais para produzir respostas mais precisas e atender às solicitações. Por lidar com integração e infraestrutura, o Agents for Amazon Bedrock permite aproveitar totalmente a IA generativa para casos de uso de negócios. Os desenvolvedores agora podem se concentrar em seus aplicativos principais, em vez de no encanamento de rotina. O processamento automatizado de dados e a chamada de API também permitem que a FM forneça respostas atualizadas e personalizadas e execute tarefas reais usando conhecimento proprietário.

Personalização do modelo

Os modelos básicos são extremamente capazes e permitem algumas aplicações excelentes, mas o que ajudará a impulsionar seus negócios é a IA generativa que sabe o que é importante para seus clientes, seus produtos e sua empresa. E isso só é possível quando você sobrecarrega os modelos com seus dados. Os dados são a chave para passar de aplicativos genéricos para aplicativos de IA generativos personalizados que criam valor real para seus clientes e seus negócios.

Nesta seção, discutimos diferentes técnicas e benefícios de personalizar seus FMs. Abordaremos como a customização do modelo envolve treinamento adicional e alteração dos pesos do modelo para melhorar seu desempenho.

Afinação

O ajuste fino é o processo de pegar um FM pré-treinado, como o Llama 2, e treiná-lo ainda mais em uma tarefa posterior com um conjunto de dados específico para essa tarefa. O modelo pré-treinado fornece conhecimento linguístico geral, e o ajuste fino permite especializar e melhorar o desempenho em uma tarefa específica, como classificação de texto, resposta a perguntas ou geração de texto. Com o ajuste fino, você fornece conjuntos de dados rotulados — que são anotados com contexto adicional — para treinar o modelo em tarefas específicas. Você pode então adaptar os parâmetros do modelo para a tarefa específica com base no seu contexto de negócios.

Você pode implementar o ajuste fino em FMs com JumpStart do Amazon SageMaker e Amazon Bedrock. Para mais detalhes, consulte Implante e ajuste modelos básicos no Amazon SageMaker JumpStart com duas linhas de código e Personalize modelos no Amazon Bedrock com seus próprios dados usando ajuste fino e pré-treinamento contínuo.

Pré-treinamento continuado

O pré-treinamento contínuo no Amazon Bedrock permite ensinar um modelo previamente treinado sobre dados adicionais semelhantes aos dados originais. Permite que o modelo obtenha conhecimento linguístico mais geral, em vez de se concentrar em uma única aplicação. Com o pré-treinamento contínuo, você pode usar seus conjuntos de dados não rotulados, ou dados brutos, para melhorar a precisão do modelo básico do seu domínio por meio de ajustes nos parâmetros do modelo. Por exemplo, uma empresa de saúde pode continuar a pré-treinar seu modelo usando revistas médicas, artigos e trabalhos de pesquisa para torná-la mais informada sobre a terminologia do setor. Para mais detalhes, consulte Experiência do desenvolvedor Amazon Bedrock.

Benefícios da personalização do modelo

A customização do modelo tem diversas vantagens e pode ajudar as organizações no seguinte:

  • Adaptação específica de domínio – Você pode usar um FM de uso geral e treiná-lo ainda mais com dados de um domínio específico (como biomédico, jurídico ou financeiro). Isso adapta o modelo ao vocabulário, estilo desse domínio e assim por diante.
  • Ajuste fino específico da tarefa – Você pode pegar um FM pré-treinado e ajustá-lo nos dados para uma tarefa específica (como análise de sentimento ou resposta a perguntas). Isso especializa o modelo para aquela tarefa específica.
  • personalização – Você pode personalizar um FM com base nos dados de um indivíduo (e-mails, textos, documentos que ele escreveu) para adaptar o modelo ao seu estilo único. Isso pode permitir aplicativos mais personalizados.
  • Ajuste de linguagem com poucos recursos – Você pode treinar novamente apenas as camadas superiores de um FM multilíngue em um idioma de poucos recursos para melhor adaptá-lo a esse idioma.
  • Corrigindo falhas – Se determinados comportamentos não intencionais forem descobertos em um modelo, a personalização dos dados apropriados pode ajudar a atualizar o modelo para reduzir essas falhas.

A personalização do modelo ajuda a superar os seguintes desafios de adoção de FM:

  • Adaptação a novos domínios e tarefas – FMs pré-treinados em corpora de texto geral muitas vezes precisam ser ajustados em dados específicos de tarefas para funcionarem bem em aplicações posteriores. O ajuste fino adapta o modelo a novos domínios ou tarefas nas quais ele não foi originalmente treinado.
  • Superando preconceitos – Os FMs podem apresentar distorções em relação aos seus dados de treinamento originais. A personalização de um modelo com base em novos dados pode reduzir distorções indesejadas nos resultados do modelo.
  • Melhorando a eficiência computacional – FMs pré-treinados costumam ser muito grandes e caros do ponto de vista computacional. A personalização do modelo pode permitir a redução do modelo, eliminando parâmetros sem importância, tornando a implantação mais viável.
  • Lidando com dados de destino limitados – Em alguns casos, há dados limitados do mundo real disponíveis para a tarefa alvo. A personalização do modelo usa pesos pré-treinados aprendidos em conjuntos de dados maiores para superar essa escassez de dados.
  • Melhorando o desempenho das tarefas – O ajuste fino quase sempre melhora o desempenho nas tarefas alvo em comparação com o uso dos pesos originais pré-treinados. Essa otimização do modelo para o uso pretendido permite implantar FMs com sucesso em aplicações reais.

A personalização do modelo tem maior complexidade do que a engenharia imediata e o RAG porque o peso e os parâmetros do modelo estão sendo alterados por meio de scripts de ajuste, o que requer ciência de dados e experiência em ML. No entanto, o Amazon Bedrock simplifica isso, fornecendo uma experiência gerenciada para personalizar modelos com afinação or pré-treinamento continuado. A personalização do modelo fornece resultados altamente precisos com resultados de qualidade comparável ao RAG. Como você está atualizando os pesos do modelo em dados específicos do domínio, o modelo produz respostas mais contextuais. Comparado ao RAG, a qualidade pode ser um pouco melhor dependendo do caso de uso. Portanto, é importante realizar uma análise de compromisso entre as duas técnicas. Você pode implementar o RAG com um modelo customizado.

Retreinamento ou treinamento do zero

Construir seu próprio modelo básico de IA, em vez de usar apenas modelos públicos pré-treinados, permite maior controle, melhor desempenho e personalização para casos de uso e dados específicos da sua organização. Investir na criação de um FM personalizado pode proporcionar melhor adaptabilidade, atualizações e controle sobre os recursos. O treinamento distribuído permite a escalabilidade necessária para treinar FMs muito grandes em conjuntos de dados massivos em muitas máquinas. Essa paralelização torna viáveis ​​modelos com centenas de bilhões de parâmetros treinados em trilhões de tokens. Modelos maiores têm maior capacidade de aprender e generalizar.

O treinamento do zero pode produzir resultados de alta qualidade porque o modelo treina dados específicos do caso de uso do zero, as chances de alucinação são raras e a precisão do resultado pode estar entre as mais altas. No entanto, se o seu conjunto de dados estiver em constante evolução, você ainda poderá ter problemas de alucinação. O treinamento do zero tem a maior complexidade e custo de implementação. Requer mais esforço porque requer a coleta de uma grande quantidade de dados, sua curadoria e processamento, e o treinamento de um FM bastante grande, o que requer profunda ciência de dados e experiência em ML. Essa abordagem é demorada (normalmente pode levar semanas ou meses).

Você deve considerar treinar um FM do zero quando nenhuma das outras abordagens funcionar para você e você tiver a capacidade de construir um FM com uma grande quantidade de dados tokenizados bem selecionados, um orçamento sofisticado e uma equipe de especialistas em ML altamente qualificados . A AWS fornece a infraestrutura de nuvem mais avançada para treinar e executar LLMs e outros FMs alimentados por GPUs e o chip de treinamento de ML desenvolvido especificamente, Treinamento AWSe acelerador de inferência de ML, Inferência da AWS. Para obter mais detalhes sobre o treinamento de LLMs no SageMaker, consulte Treinamento de modelos de linguagem grandes no Amazon SageMaker: práticas recomendadas e SageMaker HyperPod.

Selecionando a abordagem certa para desenvolver aplicações generativas de IA

Ao desenvolver aplicações generativas de IA, as organizações devem considerar cuidadosamente vários fatores-chave antes de selecionar o modelo mais adequado para atender às suas necessidades. Uma variedade de aspectos devem ser considerados, como custo (para garantir que o modelo selecionado esteja alinhado com as restrições orçamentárias), qualidade (para fornecer resultados coerentes e factualmente precisos), integração perfeita com plataformas e fluxos de trabalho empresariais atuais e redução de alucinações ou geração de informações falsas. . Com muitas opções disponíveis, reservar um tempo para avaliar minuciosamente esses aspectos ajudará as organizações a escolher o modelo de IA generativo que melhor atenda aos seus requisitos e prioridades específicos. Você deve examinar atentamente os seguintes fatores:

  • Integração com sistemas corporativos – Para que os FMs sejam verdadeiramente úteis num contexto empresarial, precisam de se integrar e interoperar com os sistemas empresariais e fluxos de trabalho existentes. Isto pode envolver o acesso a dados de bases de dados, planeamento de recursos empresariais (ERP) e gestão de relacionamento com o cliente (CRM), bem como o desencadeamento de ações e fluxos de trabalho. Sem uma integração adequada, o FM corre o risco de ser uma ferramenta isolada. Sistemas empresariais como ERP contêm dados comerciais importantes (clientes, produtos, pedidos). O FM precisa estar conectado a esses sistemas para usar dados empresariais, em vez de trabalhar com base em seu próprio gráfico de conhecimento, que pode ser impreciso ou desatualizado. Isso garante precisão e uma única fonte de verdade.
  • Alucinações – As alucinações ocorrem quando uma aplicação de IA gera informações falsas que parecem factuais. Estas questões precisam ser cuidadosamente abordadas antes que os FMs sejam amplamente adotados. Por exemplo, um chatbot médico concebido para fornecer sugestões de diagnóstico pode alucinar detalhes sobre os sintomas ou o histórico médico de um paciente, levando-o a propor um diagnóstico impreciso. Prevenir alucinações prejudiciais como estas através de soluções técnicas e curadoria de conjuntos de dados será fundamental para garantir que estes FMs sejam confiáveis ​​para aplicações sensíveis como saúde, finanças e jurídicas. Testes completos e transparência sobre os dados de treinamento de um FM e as falhas remanescentes precisarão acompanhar as implantações.
  • Habilidades e recursos – A adopção bem-sucedida de FMs dependerá fortemente da existência de competências e recursos adequados para utilizar a tecnologia de forma eficaz. As organizações precisam de funcionários com fortes habilidades técnicas para implementar, personalizar e manter adequadamente os FMs para atender às suas necessidades específicas. Eles também exigem amplos recursos computacionais, como hardware avançado e recursos de computação em nuvem para executar FMs complexos. Por exemplo, uma equipe de marketing que deseja usar um FM para gerar textos publicitários e postagens em mídias sociais precisa de engenheiros qualificados para integrar o sistema, criativos para fornecer avisos e avaliar a qualidade da produção, e poder de computação em nuvem suficiente para implantar o modelo com boa relação custo-benefício. Investir no desenvolvimento de conhecimentos especializados e infraestrutura técnica permitirá que as organizações obtenham valor comercial real com a aplicação de FMs.
  • Qualidade de saída – A qualidade dos resultados produzidos pelos FMs será crítica para determinar a sua adoção e utilização, especialmente em aplicações voltadas para o consumidor, como chatbots. Se os chatbots alimentados por FMs fornecerem respostas imprecisas, absurdas ou inadequadas, os usuários ficarão rapidamente frustrados e pararão de interagir com eles. Portanto, as empresas que desejam implantar chatbots precisam testar rigorosamente os FMs que os impulsionam para garantir que eles gerem consistentemente respostas de alta qualidade que sejam úteis, relevantes e apropriadas para fornecer uma boa experiência ao usuário. A qualidade dos resultados abrange fatores como relevância, precisão, coerência e adequação, que contribuem para a satisfação geral do usuário e determinarão o sucesso ou o fracasso da adoção de FMs como aqueles usados ​​para chatbots.
  • Custo – O elevado poder computacional necessário para treinar e executar grandes modelos de IA, como FMs, pode incorrer em custos substanciais. Muitas organizações podem não ter os recursos financeiros ou a infraestrutura em nuvem necessários para usar modelos tão massivos. Além disso, a integração e a personalização de FMs para casos de uso específicos acrescentam custos de engenharia. As despesas consideráveis ​​necessárias para utilizar FMs poderiam impedir a adoção generalizada, especialmente entre pequenas empresas e startups com orçamentos limitados. Avaliar o retorno potencial do investimento e pesar os custos versus benefícios dos FMs é fundamental para as organizações que consideram sua aplicação e utilidade. A eficiência em termos de custos será provavelmente um factor decisivo para determinar se e como estes modelos poderosos, mas que consomem muitos recursos, podem ser implementados de forma viável.

Decisão de projeto

Conforme abordamos nesta postagem, muitas técnicas diferentes de IA estão disponíveis atualmente, como engenharia imediata, RAG e personalização de modelo. Esta ampla gama de opções torna difícil para as empresas determinar a abordagem ideal para seu caso de uso específico. A seleção do conjunto certo de técnicas depende de vários fatores, incluindo o acesso a fontes de dados externas, feeds de dados em tempo real e a especificidade do domínio da aplicação pretendida. Para ajudar a identificar a técnica mais adequada com base no caso de uso e nas considerações envolvidas, percorremos o fluxograma a seguir, que descreve recomendações para combinar necessidades e restrições específicas com métodos apropriados.

Para obter uma compreensão clara, vamos examinar o fluxograma de decisão de projeto usando alguns exemplos ilustrativos:

  • Pesquisa corporativa – Um funcionário deseja solicitar licença de sua organização. Para fornecer uma resposta alinhada com as políticas de RH da organização, o FM precisa de mais contexto além dos seus próprios conhecimentos e capacidades. Especificamente, o FM exige acesso a fontes de dados externas que forneçam diretrizes e políticas de RH relevantes. Dado este cenário de uma solicitação de funcionário que requer referência a dados externos específicos do domínio, a abordagem recomendada de acordo com o fluxograma é a engenharia imediata com RAG. O RAG ajudará a fornecer dados relevantes de fontes de dados externas como contexto para o FM.
  • Pesquisa corporativa com resultados específicos da organização – Suponha que você tenha desenhos de engenharia e queira extrair a lista de materiais deles, formatando a saída de acordo com os padrões da indústria. Para fazer isso, você pode usar uma técnica que combina engenharia imediata com RAG e um modelo de linguagem ajustado. O modelo ajustado seria treinado para produzir listas de materiais quando recebesse desenhos de engenharia como entrada. O RAG ajuda a encontrar os desenhos de engenharia mais relevantes das fontes de dados da organização para alimentar o contexto do FM. No geral, esta abordagem extrai listas de materiais de desenhos de engenharia e estrutura a saída de forma adequada para o domínio da engenharia.
  • Busca geral – Imagine que você deseja encontrar a identidade do 30º Presidente dos Estados Unidos. Você poderia usar a engenharia imediata para obter a resposta de um FM. Como esses modelos são treinados em muitas fontes de dados, muitas vezes eles podem fornecer respostas precisas a questões factuais como essa.
  • Pesquisa geral com eventos recentes – Se quiser determinar o preço atual das ações da Amazon, você pode usar a abordagem de engenharia imediata com um agente. O agente fornecerá ao FM o preço das ações mais recente para que ele possa gerar a resposta factual.

Conclusão

A IA generativa oferece um enorme potencial para as organizações impulsionarem a inovação e aumentarem a produtividade em uma variedade de aplicações. No entanto, a adoção bem-sucedida destas tecnologias emergentes de IA exige a abordagem de considerações importantes em torno da integração, qualidade dos resultados, competências, custos e riscos potenciais, como alucinações prejudiciais ou vulnerabilidades de segurança. As organizações precisam adotar uma abordagem sistemática para avaliar os requisitos e restrições de seus casos de uso para determinar as técnicas mais apropriadas para adaptar e aplicar FMs. Conforme destacado nesta postagem, a engenharia imediata, o RAG e os métodos eficientes de personalização de modelos têm seus próprios pontos fortes e fracos que se adaptam a diferentes cenários. Ao mapear as necessidades de negócios para as capacidades de IA usando uma estrutura estruturada, as organizações podem superar obstáculos à implementação e começar a obter benefícios dos FMs, ao mesmo tempo que criam barreiras de proteção para gerenciar riscos. Com um planejamento cuidadoso baseado em exemplos do mundo real, as empresas de todos os setores podem desbloquear imenso valor com esta nova onda de IA generativa. Aprender sobre IA generativa na AWS.


Sobre os autores

Autor-JayRaoJay Rao é arquiteto de soluções principal na AWS. Ele se concentra em tecnologias de IA/ML com grande interesse em IA generativa e visão computacional. Na AWS, ele gosta de fornecer orientação técnica e estratégica aos clientes e ajudá-los a projetar e implementar soluções que geram resultados de negócios. Ele é autor de livros (Computer Vision on AWS), publica regularmente blogs e exemplos de código e proferiu palestras em conferências de tecnologia como AWS re:Invent.

Babu Kariyaden Parambath é especialista sênior em IA/ML na AWS. Na AWS, ele gosta de trabalhar com clientes para ajudá-los a identificar o caso de uso de negócios certo com valor comercial e resolvê-lo usando soluções e serviços de IA/ML da AWS. Antes de ingressar na AWS, Babu era um evangelista de IA com 20 anos de experiência diversificada no setor, fornecendo valor comercial orientado por IA para os clientes.

local_img

Inteligência mais recente

local_img