A IA do Google acaba de ganhar ouvidos
Os chatbots de IA já são capazes de “ver” o mundo através de imagens e vídeos. Mas agora, o Google anunciou funcionalidades de áudio para fala como parte de sua última atualização do Gemini Pro . No Gemini 1.5 Pro, o chatbot agora pode “ouvir” arquivos de áudio carregados em seu sistema e depois extrair as informações de texto.
A empresa disponibilizou esta versão do LLM como uma prévia pública em sua plataforma de desenvolvimento Vertex AI. Isso permitirá que mais usuários corporativos experimentem o recurso e expandam sua base após um lançamento mais privado em fevereiro, quando o modelo foi anunciado pela primeira vez. Originalmente, isso foi oferecido apenas a um grupo limitado de desenvolvedores e clientes corporativos.
1. Detalhamento e compreensão de um vídeo longo
Carreguei todo o concurso de enterradas da NBA da noite passada e perguntei qual enterrada teve a pontuação mais alta.
O Gemini 1.5 foi incrivelmente capaz de encontrar 50 enterradas específicas e perfeitas e detalhes apenas a partir de seu longo entendimento de vídeo de contexto! pic.twitter.com/01iUfqfiAO
— Rowan Cheung (@rowancheung) 18 de fevereiro de 2024
O Google compartilhou os detalhes sobre a atualização em sua conferência Cloud Next , que está acontecendo atualmente em Las Vegas. Depois de chamar o Gemini Ultra LLM que alimenta seu chatbot Gemini Advanced de o modelo mais poderoso de sua família Gemini, o Google agora está chamando o Gemini 1.5 Pro de seu modelo generativo mais capaz. A empresa acrescentou que esta versão é melhor para aprender sem ajustes adicionais no modelo.
Gemini 1.5 Pro é multimodal, pois pode interpretar diferentes tipos de áudio em texto, incluindo programas de TV, filmes, transmissões de rádio e gravações de chamadas em conferência. É ainda multilíngue, pois pode processar áudio em vários idiomas diferentes. O LLM também pode criar transcrições de vídeos; entretanto, sua qualidade pode não ser confiável, conforme mencionado pelo TechCrunch .
Quando anunciado pela primeira vez, o Google explicou que o Gemini 1.5 Pro usava um sistema de token para processar dados brutos. Um milhão de tokens equivale a aproximadamente 700.000 palavras ou 30.000 linhas de código. Em formato de mídia, equivale a uma hora de vídeo ou cerca de 11 horas de áudio.
Houve algumas demonstrações privadas do Gemini 1.5 Pro que demonstram como o LLM é capaz de encontrar momentos específicos em uma transcrição de vídeo. Por exemplo, o entusiasta de IA Rowan Cheung obteve acesso antecipado e detalhou como sua demonstração encontrou uma ação exata em uma competição esportiva e resumiu o evento, conforme visto no tweet incorporado acima.
No entanto, o Google observou que outros adotantes iniciais, incluindo United Wholesale Mortgage, TBS e Replit, estão optando por casos de uso mais voltados para empresas, como subscrição de hipotecas, automatização de marcação de metadados e geração, explicação e atualização de código.