Inteligência de dados generativa

Melhore seus prompts de difusão estável com geração aumentada de recuperação | Amazon Web Services

Data:

A geração de texto para imagem é um campo de inteligência artificial em rápido crescimento, com aplicações em diversas áreas, como mídia e entretenimento, jogos, visualização de produtos de comércio eletrônico, publicidade e marketing, design e visualização arquitetônica, criações artísticas e imagens médicas.

Difusão Estável é um modelo de texto para imagem que permite criar imagens de alta qualidade em segundos. Em novembro de 2022, anunciou que os clientes da AWS podem gerar imagens de texto com Difusão Estável modelos em JumpStart do Amazon SageMaker, um centro de aprendizado de máquina (ML) que oferece modelos, algoritmos e soluções. A evolução continuou em abril de 2023 com a introdução de Rocha Amazônica, um serviço totalmente gerenciado que oferece acesso a modelos básicos de última geração, incluindo Difusão Estável, por meio de uma API conveniente.

À medida que um número cada vez maior de clientes embarca em seus esforços de conversão de texto em imagem, surge um obstáculo comum: como criar prompts que tenham o poder de produzir imagens de alta qualidade e direcionadas a um propósito. Este desafio muitas vezes exige tempo e recursos consideráveis ​​à medida que os usuários embarcam em uma jornada iterativa de experimentação para descobrir os prompts que se alinham com suas visões.

A geração aumentada de recuperação (RAG) é um processo no qual um modelo de linguagem recupera documentos contextuais de uma fonte de dados externa e usa essas informações para gerar um texto mais preciso e informativo. Esta técnica é particularmente útil para tarefas de processamento de linguagem natural (PNL) com uso intensivo de conhecimento. Agora estendemos seu toque transformador ao mundo da geração de texto para imagem. Nesta postagem, demonstramos como aproveitar o poder do RAG para aprimorar os prompts enviados aos seus modelos de difusão estável. Você pode criar seu próprio assistente de IA para geração de prompts em minutos com grandes modelos de linguagem (LLMs) no Amazon Bedrock, bem como no SageMaker JumpStart.

Abordagens para criar prompts de texto para imagem

Criar um prompt para um modelo de texto para imagem pode parecer simples à primeira vista, mas é uma tarefa aparentemente complexa. É mais do que apenas digitar algumas palavras e esperar que o modelo evoque uma imagem que se alinhe com a sua imagem mental. Solicitações eficazes devem fornecer instruções claras, deixando espaço para a criatividade. Devem equilibrar especificidade e ambiguidade e devem ser adaptados ao modelo específico utilizado. Para enfrentar o desafio da engenharia imediata, a indústria explorou várias abordagens:

  • Bibliotecas de prompt – Algumas empresas selecionam bibliotecas de prompts pré-escritos que você pode acessar e personalizar. Essas bibliotecas contêm uma ampla variedade de prompts adaptados a vários casos de uso, permitindo escolher ou adaptar prompts que se alinhem às suas necessidades específicas.
  • Modelos e diretrizes de prompt – Muitas empresas e organizações fornecem aos usuários um conjunto de modelos e diretrizes de prompt predefinidos. Esses modelos oferecem formatos estruturados para escrever instruções, facilitando a elaboração de instruções eficazes.
  • Contribuições da comunidade e dos usuários – As plataformas de crowdsourcing e as comunidades de utilizadores desempenham frequentemente um papel significativo na melhoria das solicitações. Os usuários podem compartilhar seus modelos aprimorados, prompts bem-sucedidos, dicas e práticas recomendadas com a comunidade, ajudando outras pessoas a aprender e refinar suas habilidades de redação de prompts.
  • Ajuste fino do modelo – As empresas podem ajustar seus modelos de texto para imagem para melhor compreender e responder a tipos específicos de solicitações. O ajuste fino pode melhorar o desempenho do modelo para domínios ou casos de uso específicos.

Essas abordagens da indústria visam coletivamente tornar o processo de elaboração de prompts eficazes de texto para imagem mais acessível, fácil de usar e eficiente, melhorando, em última análise, a usabilidade e a versatilidade dos modelos de geração de texto para imagem para uma ampla gama de aplicações.

Usando RAG para design imediato

Nesta seção, investigamos como as técnicas RAG podem servir como uma virada de jogo na engenharia imediata, trabalhando em harmonia com essas abordagens existentes. Ao integrar perfeitamente o RAG ao processo, podemos agilizar e aumentar a eficiência do design imediato.

Pesquisa semântica em um banco de dados prompt

Imagine uma empresa que acumulou um vasto repositório de prompts em sua biblioteca de prompts ou criou um grande número de modelos de prompts, cada um projetado para objetivos e casos de uso específicos. Tradicionalmente, os usuários que buscam inspiração para seus prompts de texto em imagem navegam manualmente por essas bibliotecas, muitas vezes examinando extensas listas de opções. Este processo pode ser demorado e ineficiente. Ao incorporar prompts da biblioteca de prompts usando modelos de incorporação de texto, as empresas podem construir um mecanismo de pesquisa semântica. Veja como funciona:

  • Incorporando prompts – A empresa usa incorporações de texto para converter cada prompt de sua biblioteca em uma representação numérica. Essas incorporações capturam o significado semântico e o contexto dos prompts.
  • Consulta do usuário – Quando os usuários fornecem seus próprios prompts ou descrevem a imagem desejada, o sistema também pode analisar e incorporar suas informações.
  • Busca semântica – Utilizando os embeddings, o sistema realiza uma busca semântica. Ele recupera os prompts mais relevantes da biblioteca com base na consulta do usuário, considerando a entrada do usuário e os dados históricos na biblioteca de prompts.

Ao implementar a pesquisa semântica em suas bibliotecas de prompts, as empresas capacitam seus funcionários a acessar um vasto reservatório de prompts sem esforço. Essa abordagem não apenas acelera a criação imediata, mas também incentiva a criatividade e a consistência na geração de texto para imagem.

Geração de prompt a partir de pesquisa semântica

Embora a pesquisa semântica simplifique o processo de localização de prompts relevantes, o RAG vai um passo além ao usar esses resultados de pesquisa para gerar prompts otimizados. Veja como funciona:

  • Resultados da pesquisa semântica – Depois de recuperar os prompts mais relevantes da biblioteca, o sistema apresenta esses prompts ao usuário, juntamente com a entrada original do usuário.
  • Modelo de geração de texto – O usuário pode selecionar um prompt nos resultados da pesquisa ou fornecer mais contexto sobre suas preferências. O sistema alimenta o prompt selecionado e a entrada do usuário em um LLM.
  • Solicitação otimizada – O LLM, com sua compreensão das nuances da linguagem, cria um prompt otimizado que combina elementos do prompt selecionado e a entrada do usuário. Este novo prompt é adaptado às necessidades do usuário e projetado para produzir a saída de imagem desejada.

A combinação de pesquisa semântica e geração de prompts não apenas simplifica o processo de localização de prompts, mas também garante que os prompts gerados sejam altamente relevantes e eficazes. Ele permite que você ajuste e personalize seus prompts, levando a melhores resultados de geração de texto para imagem. A seguir estão exemplos de imagens geradas a partir do Stable Diffusion XL usando os prompts da pesquisa semântica e geração de prompts.

Solicitação original Solicitações da pesquisa semântica Prompt otimizado por LLM

um desenho animado de um cachorrinho

  • lindo desenho de um cachorro comendo um sanduíche na mesa de jantar
  • uma ilustração dos desenhos animados de um cachorro punk, estilo anime, fundo branco
  • um desenho de um menino e seu cachorro andando por uma estrada na floresta

Uma cena de desenho animado de um menino andando alegremente de mãos dadas por uma estrada na floresta com seu lindo cachorro de estimação, em estilo de animação.

Aplicações de design rápido baseadas em RAG em diversos setores

Antes de explorarmos a aplicação de nossa arquitetura RAG sugerida, vamos começar com um setor no qual um modelo de geração de imagem é mais aplicável. Na AdTech, velocidade e criatividade são fundamentais. A geração de prompts baseada em RAG pode agregar valor instantâneo, gerando sugestões imediatas para criar muitas imagens rapidamente para uma campanha publicitária. Os tomadores de decisão humanos podem acessar as imagens geradas automaticamente para selecionar a imagem candidata para a campanha. Esse recurso pode ser um aplicativo independente ou incorporado em ferramentas e plataformas de software populares atualmente disponíveis.

Outro setor onde o modelo de difusão estável pode aumentar a produtividade é o de mídia e entretenimento. A arquitetura RAG pode auxiliar em casos de uso de criação de avatares, por exemplo. A partir de um simples prompt, o RAG pode adicionar muito mais cores e características às ideias de avatar. Ele pode gerar muitos prompts de candidatos e fornecer ideias mais criativas. A partir dessas imagens geradas, você pode encontrar o ajuste perfeito para a aplicação específica. Aumenta a produtividade gerando automaticamente muitas sugestões imediatas. A variação que pode surgir é o benefício imediato da solução.

Visão geral da solução

Capacitar os clientes para construir seu próprio assistente de IA baseado em RAG para design imediato na AWS é uma prova da versatilidade da tecnologia moderna. A AWS oferece uma infinidade de opções e serviços para facilitar esse esforço. O diagrama de arquitetura de referência a seguir ilustra um aplicativo RAG para design de prompt na AWS.

Quando se trata de selecionar os LLMs certos para seu assistente de IA, a AWS oferece uma gama de opções para atender às suas necessidades específicas.

Em primeiro lugar, você pode optar por LLMs disponíveis através do SageMaker JumpStart, utilizando instâncias dedicadas. Essas instâncias suportam uma variedade de modelos, incluindo Falcon, Llama 2, Bloom Z e Flan-T5, ou você pode explorar modelos proprietários, como Command e Multilingual Embedding de Cohere, ou Jurassic-2 do AI21 Labs.

Se você preferir uma abordagem mais simplificada, a AWS oferece LLMs em Rocha Amazônica, apresentando modelos como Titã Amazona e Claude Antrópico. Esses modelos são facilmente acessíveis por meio de chamadas de API simples, permitindo que você aproveite seu poder sem esforço. A flexibilidade e a diversidade de opções garantem que você tenha a liberdade de escolher o LLM que melhor se alinha aos seus objetivos imediatos de design, quer você esteja buscando uma inovação com contêineres abertos ou os recursos robustos de modelos proprietários.

Quando se trata de construir o banco de dados vetorial essencial, a AWS oferece uma infinidade de opções por meio de seus serviços nativos. Você pode optar por Serviço Amazon OpenSearch, Aurora Amazônicaou Amazon Relational Database Service (Amazon RDS) para PostgreSQL, cada um oferecendo recursos robustos para atender às suas necessidades específicas. Como alternativa, você pode explorar produtos de parceiros da AWS como Pinecone, Weaviate, Elastic, Milvus ou Chroma, que fornecem soluções especializadas para armazenamento e recuperação eficiente de vetores.

Para ajudá-lo a começar a construir um assistente de IA baseado em RAG para design imediato, reunimos uma demonstração abrangente em nosso GitHub repositório. Esta demonstração utiliza os seguintes recursos:

  • Geração de imagem: Stable Diffusion XL no Amazon Bedrock
  • Incorporação de texto: Amazon Titan no Amazon Bedrock
  • Geração de texto: Claude 2 no Amazon Bedrock
  • Banco de dados de vetores: FAISS, uma biblioteca de código aberto para pesquisa eficiente de similaridade
  • Biblioteca de prompts: exemplos de prompts de DifusãoDB, o primeiro conjunto de dados de galeria de prompts em grande escala para modelos geradores de texto para imagem

Além disso, incorporamos LangChain para implementação LLM e Streamit para o componente de aplicativo web, proporcionando uma experiência perfeita e fácil de usar.

Pré-requisitos

Você precisa ter o seguinte para executar este aplicativo de demonstração:

  • Uma conta da AWS
  • Compreensão básica de como navegar Estúdio Amazon SageMaker
  • Compreensão básica de como baixar um repositório de GitHub
  • Conhecimento básico de execução de um comando em um terminal

Execute o aplicativo de demonstração

Você pode baixar todo o código necessário com instruções do GitHub repositório. Após a implantação do aplicativo, você verá uma página como a captura de tela a seguir.

Com esta demonstração, pretendemos tornar o processo de implementação acessível e compreensível, proporcionando a você uma experiência prática para iniciar sua jornada no mundo do RAG e design imediato na AWS.

limpar

Depois de experimentar o aplicativo, limpe seus recursos interrompendo o aplicativo.

Conclusão

RAG emergiu como um paradigma revolucionário no mundo do design imediato, revitalizando os recursos de texto para imagem do Stable Diffusion. Ao harmonizar as técnicas RAG com as abordagens existentes e usar os recursos robustos da AWS, descobrimos um caminho para a criatividade simplificada e o aprendizado acelerado.

Para recursos adicionais, visite o seguinte:


Sobre os autores

James Yi é arquiteto sênior de soluções parceiras de IA/ML na equipe de tecnologias emergentes da Amazon Web Services. Ele adora trabalhar com clientes empresariais e parceiros para projetar, implantar e dimensionar aplicativos de IA/ML para derivar seus valores de negócios. Fora do trabalho, ele gosta de jogar futebol, viajar e ficar com a família.

Rumi Olsen é arquiteto de soluções no programa de parceiros da AWS. Ela é especializada em soluções sem servidor e de aprendizado de máquina em sua função atual e tem experiência em tecnologias de processamento de linguagem natural. Ela passa a maior parte do tempo livre com a filha explorando a natureza do Noroeste do Pacífico.

local_img

Inteligência mais recente

local_img