Inteligência de dados generativa

O mecanismo de conversão de texto em imagem da OpenAI, DALL-E, é um poderoso gerador de ideias visuais

Data:


Era uma vez, no Vale do Silício, engenheiros de várias empresas de eletrônicos que mexiam em suas bancadas e criavam novas invenções. Esse conserto foi feito, pelo menos em parte, para mostrar ao engenheiro na bancada ao lado, para que ambos pudessem apreciar a engenhosidade e inspirar outras pessoas. Parte desse trabalho acabou se transformando em produtos - mas muito disso não. Essa ineficiência que existia até o final da década de 1980 foi amplamente suplantada (primeiro pelos contadores de feijão e depois pelas equipes de marketing), e o desenvolvimento do produto mudou para se concentrar nos desejos percebidos do cliente.

Notícias da OpenAI na semana passada sobre o DALL-E – uma rede neural de inteligência artificial avançada que gera imagens a partir de prompts de texto – é uma reminiscência daqueles tempos anteriores. A equipe da OpenAI reconheceu em sua postagem no blog que não há um aplicativo definido que eles tinham em mente e que existe o potencial para impactos sociais desconhecidos e desafios éticos da tecnologia. Mas o que se sabe é que, como aquelas invenções anteriores, o DALL-E é uma espécie de maravilha inventada pela equipe de engenharia.

A OpenAI escolheu o nome DALL-E como uma homenagem ao artista Salvador Dalí e ao WALL-E da Pixar. Produz imagens pastiche que refletem tanto o surrealismo de Dalí que mescla sonho e fantasia com o mundo racional cotidiano, quanto inspiração de pinturas da NASA das décadas de 1950 e 1960 e aquelas para Disneyland Tomorrowland por Disney Imagineers.

Acima: Os estilos respectivos de Salvador Dalí e WALL-E da Pixar Animation Studio.

O fato de DALL-E ser uma síntese de surrealismo e animação não deveria ser uma surpresa, como já foi feito antes. Dalí e Walt Disney colaboraram em um curta de animação a partir de 1946, embora tenha demorado mais de 50 anos para ser lançado. Nomeado “Destino," o filme fundido os estilos de duas mentes imaginativas lendárias.

Acima: Destino, a colaboração entre Dalí e Walt Disney.

DALL-E é uma versão de 12 bilhões de parâmetros do parâmetro de 175 bilhões Rede neural de processamento de linguagem natural GPT-3. O GPT-3 “aprende” com base nos padrões que descobre em dados coletados da Internet, de postagens do Reddit à Wikipedia, fanfictions e outras fontes. Com base nesse aprendizado, o GPT-3 é capaz de muitas tarefas diferentes sem nenhum treinamento adicional, capaz de produzir narrativas convincentes, gerar código de computador, traduzir entre idiomas e executar cálculos matemáticos, entre outras façanhas, incluindo imagens de preenchimento automático.

Com o DALL-E, a OpenAI refinou o GPT-3 para focar e estender a manipulação de conceitos visuais por meio da linguagem. Ele é treinado para gerar imagens a partir de descrições de texto usando um conjunto de dados de pares texto-imagem. Ambos GPT-3 e DALL-E são “transformadores”, um tipo de rede neural fácil de paralelizar que pode ser ampliado e treinado em grandes conjuntos de dados. DALL-E não é a primeira rede de texto para imagem, pois essa síntese tem sido uma área ativa de pesquisa desde 2016.

O OpenAI blog O anúncio do DALL-E afirma que fornece acesso a um subconjunto dos recursos de um mecanismo de renderização 3D - software que usa recursos de placas gráficas para gerar imagens exibidas em telas ou impressas em uma página - por meio de linguagem natural. Os arquitetos os usam para visualizar edifícios. Os arqueólogos podem recriar estruturas antigas. Anunciantes e designers gráficos os usam para criar resultados mais impressionantes. Eles também são usados ​​em videogames, arte digital, educação e medicina para oferecer experiências mais imersivas. A empresa afirma ainda que, ao contrário de um mecanismo de renderização 3D, cujas entradas devem ser especificadas de forma inequívoca e em detalhes completos, o DALL-E geralmente é capaz de “preencher os espaços em branco” quando o prompt de texto implica que a imagem deve conter um certo detalhe que é não declarado explicitamente.

Por exemplo, DALL-E pode combinar ideias díspares para sintetizar objetos, alguns dos quais são improváveis ​​de existir no mundo real, como este exemplo incongruente que funde um caracol e uma harpa.

Acima: DALL-E interpreta o prompt de texto “Um caracol feito de harpa. Um caracol com a textura de uma harpa.”

É esse “preencher os espaços em branco” que é particularmente interessante, pois sugere capacidades emergentes – fenômenos inesperados que surgem de sistemas complexos. A consciência humana é o clássico exemplo emergente, uma propriedade do cérebro que surge da comunicação de informações em todas as suas regiões. Dessa forma, o DALL-E é o próximo passo na missão da OpenAI de desenvolver inteligência artificial geral que beneficie a humanidade.

Como o DALL-E pode beneficiar a humanidade?

O blog da empresa menciona especificamente o design como um possível caso de uso. Por exemplo, um prompt de texto de “Uma poltrona em forma de abacate. Uma poltrona imitando um abacate”, rende as seguintes imagens:

O prompt de texto “Um manequim feminino vestido com uma jaqueta de couro preta e saia plissada dourada” produz o seguinte.

E o prompt de texto “Um quarto loft com uma cama branca ao lado de uma mesa de cabeceira. Há um aquário ao lado da cama” produz o seguinte:

Em cada um dos exemplos acima, DALL-E mostra criatividade, produzindo imagens conceituais úteis para produtos, moda e design de interiores. Mostrei apenas um subconjunto das imagens produzidas para cada um dos prompts, mas são as que mais se aproximam da solicitação. E eles mostram claramente que o DALL-E poderia apoiar o brainstorming criativo ou aumentar os designers humanos, seja com iniciadores de pensamento ou, um dia, produzindo imagens conceituais finais. O tempo dirá se isso substituirá as pessoas que executam essas tarefas ou simplesmente será mais uma ferramenta para aumentar a eficiência e a criatividade.

Uma ajuda para a saúde mental

Em resposta a outra demonstração DALL-E, mostrada abaixo, onde o prompt de texto pede “uma ilustração de um rabanete daikon bebê em um tutu passeando com um cachorro”, uma entrada recente em “A Good Stuff” O boletim informativo começa: “Um rabanete daikon bebê em um tutu passeando com um cachorro. A frase me faz sorrir. O pensamento disso me faz sorrir. E a Ilustrações conjurados por um novo modelo de inteligência artificial podem ser as únicas coisas que sozinhos sustentam minha saúde mental.”

O redator do boletim informativo pode estar envolvido em algo significativo. A relação entre criar arte e saúde mental positiva é bem conhecida. Tem gerado o campo da arteterapia, e a visualização tem sido um dos pilares da psicoterapia. professor de arteterapia Girija Kaimal notas: “Qualquer coisa que envolva sua mente criativa – a capacidade de fazer conexões entre coisas não relacionadas e imaginar novas maneiras de se comunicar – é bom para você.” Isso é verdade para qualquer expressão criativa visual: desenho, pintura, fotografia, colagem, escrita de poesia etc. Isso pode se estender à interação com DALL-E, seja para criar algo novo ou simplesmente para um sorriso, ou talvez mais significativamente de uma terapia perspectiva para dar representação visual imediata a um sentimento expresso em palavras.

Vídeo sintético sob demanda

Como o DALL-E já fornece alguns recursos de mecanismo de renderização 3D por meio de entrada de linguagem natural, pode ser possível para o sistema produzir storyboards rapidamente. Possivelmente, poderia produzir vídeos totalmente sintéticos com base em uma sequência de declarações de texto. Na melhor das hipóteses, isso pode levar a uma maior eficiência na produção de animações.

A criação do DALL-E remonta ao tempo em que os engenheiros criavam sem um sinal claro do marketing para construir um produto. Discutindo um fusão de linguagem e visão, O cientista-chefe da OpenAI, Ilya Sutskever, acredita que a capacidade de processar texto e imagens juntos deve tornar os modelos de IA mais inteligentes. Se você pode expor os modelos aos dados da mesma forma que são absorvidos pelos humanos, os modelos devem aprender os conceitos de uma forma mais semelhante aos humanos e que seja mais útil para um número maior de pessoas. DALL-E é um passo considerável nessa direção.

Gary Grossman é o vice-presidente sênior de prática de tecnologia da Edelman e Líder Global do Edelman AI Center of Excellence.

VentureBeat

A missão da VentureBeat é ser uma praça da cidade digital para que os tomadores de decisões técnicas obtenham conhecimento sobre a tecnologia transformadora e façam transações. Nosso site oferece informações essenciais sobre tecnologias e estratégias de dados para orientá-lo à medida que lidera suas organizações. Convidamos você a se tornar um membro de nossa comunidade, para acessar:

  • informações atualizadas sobre os assuntos de seu interesse
  • nossos boletins
  • conteúdo líder de pensamento fechado e acesso com desconto a nossos eventos premiados, como o Transform
  • recursos de rede e muito mais

Torne-se um membro

Fonte: https://venturebeat.com/2021/01/16/openais-text-to-image-engine-dall-e-is-a-powerful-visual-idea-generator/

local_img

Inteligência mais recente

local_img