Inteligência de dados generativa

Google lança sistemas Gemini AI em três sabores

Data:

O Google revelou o Gemini, sua classe mais poderosa de modelos baseados em transformadores, capaz de processar texto, imagens, áudio e vídeo. 

Gemini é um modelo multimodal com uma janela de contexto de 32k que pode receber diferentes tipos de dados como entrada e gerar imagens e texto como saída, e vem em três tamanhos diferentes. O maior, Gemini Ultra, é a versão mais poderosa projetada para tarefas complexas que exigem “raciocínio” ou processamento de vários tipos de dados.

Gemini Pro é o modelo de tamanho médio que foi otimizado para funcionar com mais eficiência e realizar uma gama mais ampla de tarefas. O menor Gemini Nano é dividido em dois, o Nano-1 tem 1.8 bilhão de parâmetros e o Nano-2 tem 3.25 bilhões de parâmetros e foi projetado para funcionar em dispositivos pequenos. O Google não revelou quantos parâmetros seus modelos Gemini Pro e Gemini Ultra mais poderosos contêm. 

Então, para que o Google está usando o Gemini? A partir de hoje, seu chatbot AI Bard foi atualizado para executar o Gemini Pro, o que significa que deve ser melhor para compreender e resumir texto do que sua versão anterior, alimentada pelo modelo de linguagem PaLM 2 do Google. Os recursos multimodais, no entanto, ainda não estão prontos e a versão Gemini-Pro do Bard só pode processar e gerar texto, e por enquanto só suporta inglês. 

O Google também está planejando renovar alguns de seus produtos Search, Ads, Chrome e Duet AI com Gemini Pro, como Gmail, Google Docs e muito mais nos próximos meses.

Enquanto isso, o mais recente Pixel 8 Pro do Google executará o Gemini Nano para oferecer suporte a dois novos recursos, resumindo arquivos de áudio em seu aplicativo Recorder e gerando respostas rápidas a mensagens de texto por meio do aplicativo de teclado virtual Gboard. O Google construirá mais recursos de IA no Gemini Nano para seus smartphones, disse, e planeja abrir o software para permitir que desenvolvedores Android terceirizados também com seu serviço AICore.

AICore é executado no Android 14 e dá aos desenvolvedores acesso ao modelo por meio de APIs de código aberto e cuidará de coisas como tempos de execução e segurança.

Infelizmente, quem está esperando para testar o Gemini Ultra terá que esperar um pouco mais. “Atualmente, estamos concluindo extensas verificações de confiança e segurança, incluindo a formação de equipes por partes externas confiáveis, e refinando ainda mais o modelo usando ajuste fino e aprendizado de reforço a partir de feedback humano antes de torná-lo amplamente disponível”, disse o Google. explicado

A Chocolate Factory planeja disponibilizar o Gemini Ultra no próximo ano e começará a experimentar os recursos do modelo com clientes e desenvolvedores selecionados antes de lançar seu chatbot Bard Advanced. 

Os fornecedores que desejam criar ferramentas de IA especializadas desenvolvidas pelo Gemini para aplicações específicas, como aqueles que trabalham nos setores jurídico, de RH, médico ou financeiro, por exemplo, poderão acessar o Gemini Pro como uma API no Google AI Studio ou no Google Cloud. Plataformas Vertex AI a partir de 13 de dezembro. 

Google x OpenAI

O Google tem sido criticado por ser lento no fornecimento de produtos de IA, apesar de ser líder em pesquisa e desenvolvimento da tecnologia.

A OpenAI lançou seu aplicativo viral da web ChatGPT há um ano e ajudou a Microsoft a lançar seu próprio chatbot AI Bing logo depois, deixando o Google para tentar se atualizar. Agora, as versões mais recentes do ChatGPT e AI Bing com tecnologia GPT-4 também podem processar imagens. Gemini é o impulso do Google para se manter competitivo. Então, como ele se compara aos modelos da OpenAI?

A resposta curta é: Gemini Pro parece ser um pouco melhor que GPT-3.5, enquanto Gemini Ultra é um pouco melhor que GPT-4, de acordo com alguns testes de benchmark lançados pelo Google.

“Em termos gerais, descobrimos que o desempenho do Gemini Pro supera os modelos otimizados para inferência, como o GPT-3.5, e tem um desempenho comparável a vários dos modelos mais capazes disponíveis, e o Gemini Ultra supera todos os modelos atuais”, disse a equipe do Gemini em um artigo. [PDF]

Os testadores compararam as habilidades do Gemini com vários modelos da OpenAI, Anthropic, X e Meta em dez testes diferentes. Eles envolviam principalmente tarefas baseadas em texto, como resolução de problemas de matemática e codificação Python, perguntas e respostas para compreensão de texto, verificações de bom senso e tradução automática. 

O Gemini Ultra teve um desempenho melhor que o GPT-4, Claude, Grok-1 e Llama-2 em oito das dez tarefas, enquanto o Gemini Pro superou o GPT-3.5 e todos os outros modelos em sete das nove tarefas. Esses resultados de referência, no entanto, devem ser considerados com cautela.

Embora as tecnologias de IA estejam a melhorar, não são perfeitas e os seus comportamentos são imprevisíveis. Gemini ainda tem as mesmas limitações de todos os grandes modelos de linguagem (LLMs) na geração de informações factualmente incorretas, um processo conhecido como alucinação.

“Apesar de suas capacidades impressionantes, devemos observar que existem limitações ao uso de LLMs. Há uma necessidade contínua de pesquisa e desenvolvimento contínuos sobre 'alucinações' geradas por LLMs para garantir que os resultados do modelo sejam mais confiáveis ​​e verificáveis”, alertou a equipe do Gemini.

“Os LLMs também lutam com tarefas que exigem habilidades de raciocínio de alto nível, como compreensão causal, dedução lógica e raciocínio contrafactual, embora obtenham um desempenho impressionante nos benchmarks dos exames.”

Mesmo assim, o Google está investindo pesadamente na tecnologia. Sob o comando do CEO Sundar Pichai, o gigante das buscas reorientou-se como “uma empresa que prioriza a IA” e agora está lutando para comercializar seus esforços e permanecer competitivo com a nova onda de startups de IA. 

“Após quase oito anos de nossa jornada como uma empresa que prioriza a IA, o ritmo do progresso está apenas acelerando: milhões de pessoas estão agora usando IA generativa em nossos produtos para fazer coisas que não conseguiam há um ano, desde encontrar respostas até mais questões complexas ao uso de novas ferramentas para colaborar e criar”, ele dito. "

“Ao mesmo tempo, os desenvolvedores estão usando nossos modelos e infraestrutura para construir novas aplicações generativas de IA, e startups e empresas em todo o mundo estão crescendo com nossas ferramentas de IA. Este é um impulso incrível e, ainda assim, estamos apenas começando a arranhar a superfície do que é possível.” ®

local_img

Inteligência mais recente

local_img