Analisar documentos, vídeos e fotos: conheça a nova função do Gemini, IA do Google

Durante a conferência Google I/O, companhia revelou a nova versão da ferramenta de GenAI do Gemini e novidades para fotos e buscas

Google se empolga com IA e anuncia novas funcionalidades

, conteúdo exclusivo

7 min

•

14 mai 2024

•

Atualizado: 15 mai 2024

newsletter

Start Seu dia:
A Newsletter do AGORA!

O Google revelou nesta terça-feira (14) uma série de novas funcionalidades em seus produtos envolvendo inteligência artificial (IA).

Os anúncios foram feitos durante o Google I/O, conferência anual da empresa em que são apresentadas as atualizações mais recentes no setor de tecnologia.
Entre as novidades, está uma nova versão do Gemini, a atual estrela da companhia.

Chamada de Gemini 1.5 Pro, a inteligência artificial generativa do Google poderá agora analisar documentos, vídeos e fotos mais longos, em comparação com a versão anterior. O modelo também poderá receber até 2 milhões de tokens, ou seja, dados brutos — o dobro do volume permitido antes. Com isso, terá a maior capacidade de inputs que qualquer outro modelo disponível atualmente no mercado. O segundo maior é o Claude 3 da Anthropic, com 1 milhão.

Para se ter uma ideia, 2 milhões de tokens correspondem a cerca de 1,4 milhões de palavras, duas horas de vídeo ou 22 horas de áudio, segundo reportou o Techcrunch.

No evento, o Google afirmou que o Gemini 1.5 Pro foi “aprimorado” nos últimos meses também com relação aos algoritmos. De acordo com a companhia, o modelo é melhor na geração de código, raciocínio lógico e planejamento, conversação em várias voltas e compreensão de áudio e imagem. Na API Gemini e no AI Studio, o 1.5 Pro agora pode raciocinar através de áudio, além de imagens e vídeo – e ser “dirigido” por meio de um recurso chamado instruções do sistema.

A empresa também está lançando uma versão mais leve da ferramenta de GenAI, chamada Gemini 1.5 Flash, que pode analisar áudio, vídeo e imagens, mas gera apenas texto.

Leia mais: Google for Startups lança programa de aceleração para startups de IA

Ask Photos

Apesar do foco no Gemini, o gigante de tecnologia também não abriu mão de aumentar o uso de IA em outras de suas ferramentas. O Google Fotos, por exemplo, está lançando um recurso experimental, o Ask Photos, desenvolvido pelo Gemini, que permitirá que os usuários pesquisem em sua coleção de fotos de uma forma mais eficiente. Embora antes os usuários pudessem pesquisar pessoas, lugares ou coisas específicas em suas fotos, graças ao processamento de linguagem natural, a atualização da IA tornará a localização do conteúdo certo mais intuitiva e menos manual.

Por exemplo, em vez de procurar por um ponto específico nas fotos, como o Corcovado, no Rio de Janeiro, agora o usuário pode pedir à IA para fazer buscas mais abrangentes, como encontrar a “melhor foto de cada um dos Parques Nacionais que visitei”, explica a reportagem do Techcrunch. A IA vai então analisar fatores como iluminação, desfoque, falta de distorção de fundo e muito mais. Isso poderá ser combinado com a geolocalização de um conjunto de fotos ou datas para recuperar apenas as imagens tiradas nos Parques Nacionais dos EUA, por exemplo.

O recurso Ask Photos será inicialmente suportado nos EUA em inglês antes de ser lançado em mais mercados. Por enquanto, também será apenas um recurso baseado em texto, semelhante a fazer perguntas a um chatbot de IA.

Ferramenta de busca

O Google também anunciou que está adicionando "mais IA" à sua ferramenta de busca, como uma forma de competir com chatbots de GenAI como o ChatGPT. Durante a conferência, Liz Reid, chefe de pesquisa do Google, disse que a empresa construiu um modelo Gemini personalizado para pesquisa para combinar informações em tempo real, classificação do Google, contexto longo e recursos multimodais.

A companhia tem testando o recurso de Search Generative Experience (SGE) desde o ano passado, e o lança esta semana nos Estados Unidos para “centenas de milhões de usuários”. A ideia é tornar a ferramenta disponível para mais de um bilhão de pessoas até o fim do ano.

O Google também quer usar o Gemini como assistente para realizar tarefas como planejamento de refeições ou viagens. O usuário poderia digitar consultas como “Planejar uma refeição para uma família de quatro pessoas por três dias” e obter links e receitas para esses três dias, com base em resultados do Google Search e nas preferências do usuário.

Leitura recomendada

Conheça a formação executiva com foco em implementação de Inteligência Artificial para líderes extraírem o potencial máximo da maior revolução de gestão e eficiência do século XXI. Saiba mais!

Gostou deste conteúdo? Deixa que a gente te avisa quando surgirem assuntos relacionados!

Assuntos relacionados

, conteúdo exclusivo

O mais conceituado portal sobre startups do Brasil. Veja mais em www.startups.com.br.

Analisar documentos, vídeos e fotos: conheça a nova função do Gemini, IA do Google

Ask Photos

Ferramenta de busca

Imersão MultiAgentes

Imersão MultiAgentes