Inteligência de dados generativa

Ideograma é um novo gerador de imagens de IA que elimina a concorrência, superando MidJourney e Dall-E 3 – Decrypt

Data:

Ideogram AI – uma startup fundada por ex-engenheiros do Google junto com membros de instituições de prestígio como UC Berkeley, Carnegie Mellon University e Universidade de Toronto – anunciou o lançamento da primeira versão completa de seu gerador de imagens de mesmo nome.

“Estamos entusiasmados em lançar o Ideogram 1.0, nosso modelo de texto para imagem mais avançado até o momento”, disse a Ideogram AI em um comunicado oficial. no blog. “Treinado do zero como todos os modelos Ideogram, o Ideogram 1.0 oferece renderização de texto de última geração, fotorrealismo sem precedentes e adesão imediata – e um novo recurso chamado Magic Prompt que ajuda você a escrever prompts detalhados para imagens bonitas e criativas.”

O lançamento vem junto com a notícia de uma arrecadação de fundos da Série A de US$ 80 milhões liderada por Andreessen Horowitz, junto com Redpoint Ventures, Pear VC e SV Angel.

Descifrar foi capaz de testar o modelo e as afirmações da Ideogram AI não são exageradas – uma comparação lado a lado pode ser encontrada abaixo. A versão um do Ideogram é uma melhoria clara em relação aos seus antecessores v0.1 e v0.2: ele se destaca pela adesão imediata, qualidade de imagem e recursos de geração de texto.

O modelo não é de código aberto, portanto há visibilidade limitada sobre seu encanamento e nenhum trabalho de pesquisa para avaliar. Mas os resultados obtidos com o modelo falaram por si, tornando-o potencialmente o melhor modelo atualmente disponível – pelo menos até Difusão estável 3 é divulgado publicamente.

O novo modelo é indiscutivelmente o gerador de imagens mais capaz em termos de capacidade de texto, gerando sequências de texto mais longas com menos erros do que Dall-E 3 ou MidJourney. O nível gratuito atual também oferece uma vantagem sobre concorrentes como Dall-E 3 e MidJourney, o último dos quais não tem nível gratuito. O Microsoft Copilot também usa Dall-E 3, mas gera apenas imagens quadradas 1:1, enquanto o Ideogram oferece suporte a um conjunto mais amplo de proporções de aspecto.

Ideograma também oferece dois planos pagos de US$ 7 e US$ 15 por mês, que dão acesso a mais de 400 gerações por dia junto com outras vantagens como editor de imagens, downloads de melhor qualidade, img2img – que permite modificações ou variações em uma imagem existente – e gerações privadas. Todas as camadas inferiores exibem publicamente as imagens solicitadas.

O Ideogram é capaz de entender prompts longos, enfrentando o Stable Diffusion 3 e superando todos os outros geradores de imagem neste campo.

Um dos recursos de destaque do Ideogram é o “Prompt Magic”, que pode ser ativado e desativado. Este recurso analisa o prompt e o aprimora para criar imagens de melhor qualidade, essencialmente dando ao modelo a capacidade de entender linguagem natural como Dall-E 3. Porém, o Ideograma é mais versátil porque esse recurso é opcional. Está sempre ativado com ChatGPT Plus, o que às vezes leva a imprecisões.

Finalmente, o Ideogram é censurado de forma menos agressiva do que o MidJourney e o Dall-E 3, e até agora é capaz de gerar imagens de pessoas famosas, logotipos de empresas e estilos artísticos. Não é totalmente NSFW, mas é mais discreto quando se trata de censurar prompts.

E os primeiros testadores parecem preferir o Ideograma a outros modelos. “Usando um protocolo de avaliação como o do DALL·E 3, descobrimos que os avaliadores humanos preferem o Ideograma 1.0 ao DALL·E 3 e Midjourney V6 em alinhamento imediato, coerência de imagem, preferência geral e qualidade de renderização de texto”, disse a startup.

Comparação lado a lado: Ideograma vs MidJourney vs Dall-E 3

Descifrar testou os recursos do Ideogram e o comparou com seus principais concorrentes, MidJourney e Dall-E 3. Stable Diffusion 3 e o top de linha do Google ImagemFX não estão sendo avaliados aqui porque o SD3 ainda não foi lançado e o ImageFX não está amplamente disponível.

Gerando longas sequências de texto

Prompt: Um Android futurista em Cyberpunk City com uma placa que diz: “Não se atrase na tendência de IA: Emerge by Decrypt”

Gerações com Ideograma (esquerda), MidJourney (centro) e Dall-e 3 (direita)
Gerações com Ideograma (esquerda), MidJourney (centro) e Dall-E 3 (direita).

O Ideogram AI conseguiu retratar tanto a estética solicitada quanto o texto. No entanto, houve um erro de digitação, gerando “ti” em vez de “o”.

MidJourney não foi capaz de gerar nenhum texto coerente e se concentrou em gerar um andróide futurista com detalhes. É o tema principal de toda a composição. A cidade não é cyberpunk de forma alguma.

Dall-E 3 está no meio. Foi capaz de gerar o robô futurista, a cidade é cyberpunk, mas a placa não trazia a palavra “Emerge”.

Curiosamente, o Ideogram entendeu que o robô estava na cidade e associado à placa, enquanto Dall-E presumiu que a placa fazia parte da paisagem urbana.

Prompts longos e recursos espaciais

Prompt: Uma cena surreal e intrigante com um gato empoleirado em cima de uma televisão ao lado de uma placa que diz “Emerge”. Ao fundo, um andróide futurista está de um lado e um astronauta do outro. As paredes da sala são adornadas com a impressionante imagem de uma molécula e uma cadeia de DNA.

Gerações com Ideograma (topo), MidJourney (canto inferior esquerdo) e Dall-e 3 (canto inferior direito)

O ideograma foi de longe o melhor gerador geral. Ele entendeu cada parte do prompt, gerou o texto sem erros de digitação, entendeu a localização de cada elemento com o gato em cima da TV, a placa ao lado, o andróide e o astronauta de cada lado, e até entendeu que deve haver uma molécula e uma cadeia de DNA no fundo.

A estética do MidJourney não era surreal, mas sim hiper-realista. Gerou a palavra “Emerge”, mas colocou na TV e não gerou o sinal. O gato também está ao lado da TV e não em cima dela. Não gerou o andróide e não seguiu a indicação do fundo, gerando em vez disso um que melhor se adequasse à estética da composição, dando mais importância ao sujeito (o gato) em detrimento da cena como um todo.

Dall-E 3 manteve seu estilo característico de desenho animado e não conseguiu seguir totalmente as instruções. Possui mais compreensão espacial e adesão imediata do que o MidJourney, mas bem menos do que o Ideograma. Perde, porém, em termos de estilo. Ele gerou o gato em cima da TV, mas não conseguiu gerar o sinal Emerge próximo ao gato. Não gerou o android e não seguiu o prompt ao gerar o background.

Censura

Dica: Uma garota gostosa e sexy.

Gerações com Ideograma (esquerda), MidJourney (centro) e Dall-e 3 (direita)
Gerações com Ideograma (esquerda), MidJourney (centro) e Dall-e 3 (direita)

A sugestão não inclui linguagem que possa ser interpretada como discurso de ódio ou calúnias, muito menos especialmente sexual. Afinal, uma “garota gostosa e sexy” pode estar totalmente vestida e não sexualizada agressivamente.

O Ideogram AI entendeu o prompt e gerou uma imagem que se encaixava nas instruções. No entanto, o ideograma tem um moderador de IA que é acionado quando palavras mais óbvias são usadas e levam imediatamente a uma geração censurada (por exemplo, gírias para genitália ou tags como nu, nu, etc.).

Enquanto isso, MidJourney e Dall-E 3 não conseguiram gerar a imagem e proibiram palavras, mesmo que não tivessem levado a uma geração NSFW.

O ideograma parece ser mais alvo de censura, e é possível ver a imagem gerada – NSFW ou questionável – antes de ser arrancada pelo aplicativo.

Pessoas famosas e imagens protegidas por direitos autorais

Prompt: Joe Biden e Vladimir Putin felizes em frente a uma parede com o texto “Descriptografar”, de mãos dadas.

Gerações com Ideograma (acima), Dall-e 3 (canto inferior esquerdo) e MidJourney (canto inferior direito)
Gerações com Ideograma (acima), Dall-e 3 (canto inferior esquerdo) e MidJourney (canto inferior direito)

O Ideograma AI gerou a imagem, o texto está correto, o cenário é realista e os personagens são facilmente identificáveis ​​(mesmo que não sejam 100% precisos).

Dall-E 3 gerou a imagem, mas Biden não é facilmente identificável e Trump só pode ser identificado por causa de seu penteado característico. O texto não está correto e o cenário não é realista e, em vez disso, é um desenho animado.

MidJourney recusou-se a gerar a imagem.

Conclusão

Gratuito e amplamente disponível desde o início, o Ideogram pode ser o melhor gerador de imagens atualmente no mercado. É ótimo na compreensão da linguagem natural e possui excelentes capacidades espaciais e adesão imediata. É também o melhor gerador de texto disponível atualmente.

Se a estética for a consideração mais importante – a ponto de a aderência e o texto serem menos importantes – então o MidJourney poderá continuar a ser um concorrente sólido para casos de uso específicos. Embora não seja especialmente forte e fortemente censurado, o Dall-E 3 ainda pode fazer sentido como parte de uma assinatura do ChatGPT Plus.

Ideogram AI detém a coroa entre nossa caixa de ferramentas de geradores de imagens - por enquanto.

Editado por Ryan Ozawa.

Fique por dentro das notícias sobre criptomoedas, receba atualizações diárias em sua caixa de entrada.

local_img

Inteligência mais recente

local_img