Google lança “AI Family Bucket” para combater o GPT-4o! Uma rara atualização importante do mecanismo de pesquisa, 121 frases de “IA” para lidar com a ansiedade
Depois que a OpenAI lançou o ChatGPT-4o na noite passada, a pressão estava sobre o Google I/O, como se o Google não pudesse se livrar do título de “Wang Feng em IA” de qualquer maneira.
O Google, por outro lado, mencionou a IA 121 vezes e lançou mais de dez novos produtos e atualizações em uma coletiva de imprensa de quase 2 horas. Pode-se dizer que é “grande em volume e completo em gerenciamento”, com cobertura completa de. poder de fogo, mas não há muitas surpresas.
Vamos primeiro resumir os destaques desta conferência. Leia abaixo para uma análise mais funcional.
Pontos-chave da conferência de imprensa:
- IA de pesquisa do Google: visões gerais de IA lançadas, uma versão aprimorada da função de resumo de pesquisa de IA e recursos de raciocínio em várias etapas.
- Modelos grandes do Gemini: Gemini 1.5 Flash (1 milhão de contextos);
- Modelo grande Gemma: Lançados modelos grandes multimodais de código aberto Pali Gemma e Gemma2.
- IA no Google Workspace: use os recursos do Gemini e o formulário do painel lateral para reunir a série de produtos do Google.
- Aplicativo Gemini: A versão móvel do aplicativo Gemini em breve oferecerá suporte a conversas por vídeo com IA e será lançada nas últimas semanas.
- Projeto Astra: O mais recente projeto de IA multimodal, incluindo IA generativa para imagens, músicas e vídeos, como Imagen3, Music AI Sandbox e Veo.
Comece fazendo pesquisa, use Search King para explodir
A Pesquisa Google é uma das maiores áreas de investimento e inovação do Google e é o seu produto fundador.
Há 25 anos, o Google lançou a busca e hoje à noite o Google está ampliando os limites da busca novamente.
Simplificando, com a Pesquisa Google da AIGC, você pode fazer mais:
Seja o que for que você esteja pensando, seja o que for que você precise fazer, basta perguntar e a Pesquisa Google encontrará.
Todas as evoluções da Pesquisa Google são baseadas no modelo Gemini customizado para ela.
O Google apresentou na conferência de imprensa que a Pesquisa Google “diferente” tem três vantagens exclusivas:
- As informações em tempo real do Google incluem mais de um trilhão de fatos sobre pessoas, lugares e coisas
- Um produto de primeira linha e um dos melhores serviços online
- O poder de Gêmeos
A combinação dessas três coisas desbloqueia os novos recursos de pesquisa do Google.
A primeira nova função é a Revisão de IA. Os usuários podem obter resumos gerados por grandes modelos de IA no topo dos resultados da pesquisa, simplificando assim todo o processo de pesquisa e simplificando o processo de recuperação de problemas complexos.
O Google afirma que até o final deste ano, mais de um bilhão de pessoas usarão o recurso AI Review na Pesquisa Google, e o Google afirma que esta será uma das maiores atualizações em seu mecanismo de busca em 25 anos.
O raciocínio em várias etapas é outro recurso importante na Pesquisa Google.
Através do novo raciocínio em várias etapas, será muito simples fazermos alguns planos de vida, trabalho e viagens no futuro.
Por exemplo, você pode usar a barra de pesquisa para encontrar "o melhor estúdio de ioga próximo" e, em seguida, todas as informações importantes, como notas de avaliação, recomendações de cursos, distâncias, etc. sobre estúdios de ioga próximos, serão classificadas em blocos e exibidas de forma muito clara em os resultados da pesquisa.
Contando com o enorme banco de dados do Google, a IA pode recorrer às informações mais recentes e abrangentes de alta qualidade durante o processo de pesquisa, para que a precisão e a credibilidade dos resultados da pesquisa sejam mais garantidas.
Atualmente, o Google inclui mais de 250 milhões de locais em todo o mundo, que são atualizados em tempo real e incluem informações importantes como classificações, comentários e horário comercial.
O Planning in Search é outra atualização que reduz sua carga.
Digamos que você esteja reestruturando e planejando suas refeições do zero e não queira comer macarrão com queijo no café da manhã, almoço e jantar.
Basta colocar seus requisitos na caixa de pesquisa e a Pesquisa Google fornecerá uma nova receita semanal que atenda aos seus requisitos e seja razoavelmente organizada.
Além disso, você pode alterar as condições e detalhes a qualquer momento, e os resultados da pesquisa serão atualizados em tempo real com base nas últimas solicitações.
Se vimos ou mesmo usamos as funções acima em produtos de outras empresas, então Ask with Video certamente lhe trará algumas surpresas.
Existem muitos objetos na vida, todos com nomes exclusivos. Quando algum equipamento apresenta pequenos problemas, também existem métodos de reparo correspondentes. Mas, em muitos casos, apenas os profissionais podem dizer, e só eles podem “prescrever o medicamento certo”.
Agora, por meio do Ask with Video da Pesquisa Google, todos podem ser chamados de especialistas, o que equivale a uma enciclopédia no seu celular.
As partes do disco não funcionam mais e não sei por onde começar. O obturador da câmera falha repentinamente… No passado, você poderia ter que se esforçar muito para devolvê-lo ao fabricante. para serviço pós-venda, mas agora você pode usar a lente de um dispositivo Google para tirar uma foto do problema, e a Pesquisa Google pode ajudá-lo a encontrar o problema. O diagnóstico preliminar dos problemas encontrados e soluções para algumas pequenas falhas podem. ser fornecido no local.
Na demonstração em tempo real na conferência de imprensa, a IA também listou todas as etapas do reparo, uma por uma. Seguindo as instruções na tela, o demonstrador poderia resolver rapidamente os pequenos problemas.
Esta função usa IA para decompor o vídeo quadro a quadro, importar as principais informações de cada quadro para a longa janela de contato do Gemini para analisar um por um e vasculhar artigos, fóruns, vídeos, etc. relacionados na Internet para encontrar insights, assim percebendo as sugestões inteligentes do Ask with Video.
Em comparação com a entrada de texto tradicional, a maior vantagem do vídeo é que o processo de interação entre nós e a IA se torna mais intuitivo. O uso de palavras vagas como "aqui" e "isto" também pode fazer com que o modelo grande saiba a que estamos nos referindo.
O Google disse que esses recursos mais recentes de IA serão lançados na função de laboratório nas próximas semanas, o que também significa que uma Pesquisa Google mais poderosa não está longe de chegar.
Nas versões subsequentes, ele poderá até encontrar respostas com base nas legendas automáticas dos vídeos da página. Será que isso vai tirar o emprego daqueles blogueiros que “assistiram XX filmes em 1 minuto”.
Fotos, músicas e filmes, visando OpenAI
Se o GPT-4o nos últimos dois dias foi mais uma vez um choque para o mundo devido à IA, então o Projeto Astra anunciado oficialmente pelo Google esta noite é uma continuação do choque.
O Projeto Astra é um protótipo do GoogleMind – um assistente geral de inteligência artificial.
Semelhante ao GPT-4o, os usuários podem ter conversas em tempo real com IA e chat de vídeo por meio dele.
A demonstração na coletiva de imprensa pode demonstrar muito bem esse novo recurso. No vídeo de demonstração, a equipe apontou a lente do celular para os objetos ao seu redor e fez algumas perguntas ao Projeto Astra, e ele conseguiu responder com precisão e quase sem atraso. .
Por exemplo, o Project Astra pode dizer que a metade superior do alto-falante é um tweeter e pode identificar facilmente sua função específica a partir do código exibido na tela do computador.
Google diz:
Nosso novo projeto se concentra na construção de um assistente de IA futurista que possa realmente ajudar na vida cotidiana.
Com base no desempenho mais poderoso da IA, o Google também anunciou três outras funções práticas no I/O. Elas estão nas áreas de "imagens", "música" e "vídeos", refletindo o "sentido futuro" da tecnologia avançada.
Imagen 3 é o mais recente modelo de geração de imagens lançado pelo Google.
Ele pode compreender melhor nossas palavras imediatas e usá-las para criar imagens mais realistas.
A imagem gerada do “Lobo” exibida na coletiva de imprensa é que o Imagen 3 extraiu com precisão 8 informações detalhadas em uma narrativa, e todas elas estão refletidas na imagem.
Não é difícil descobrir que as imagens geradas não são apenas precisas nos detalhes, mas também muito realistas.
O Imagen 3 também pode lidar com algumas criações de imagens mais abstratas, como imagens criativas geradas com base nas instruções de "cor do arco-íris", "luz de pena" e "fundo preto".
Como se soubesse exatamente o que você quer.
O porta-voz ainda brincou na coletiva de imprensa que “você pode usá-lo para contar as barbas no rosto de outras pessoas”.
O Google também fez novos avanços na geração musical.
Music AI Sandbox é o modelo de geração musical mais recente lançado. Desta vez, o Google também convidou Marc Rebillet para compartilhá-lo no site I/O.
Com base em uma breve demonstração musical criada pelo artista, o Music AI Sandbox pode ser expandido e estendido com base nisso. Ele também pode criar uma segunda peça musical com base nas solicitações inseridas pelo usuário, como estilo e tipo de música, etc. .
O Google disse que eles e o YouTube criaram o Music AI Sandbox:
Este é um conjunto de ferramentas musicais profissionais de IA que podem criar novas partes de instrumentos do zero, converter estilos entre faixas, etc.
Outro modelo prático chamado Veo tem como foco a geração de vídeos.
Os usuários só precisam inserir prompts de texto, imagem ou vídeo relevantes, e o Veo pode criar vídeos 1080p de alta qualidade de até 60 segundos.
Ele captura os detalhes nas instruções em diferentes estilos visuais e cinematográficos.
Por exemplo, podemos inserir coisas, paisagens ou fotos aéreas com lapso de tempo nos prompts e usar outros prompts para editar ainda mais o vídeo.
Durante muito tempo, a IA de geração de vídeo foi "estabelecida apenas teoricamente". Na verdade, houve muitos obstáculos. Entre eles, o maior limite para a "usabilidade" é: o tempo de geração de vídeo é de apenas alguns segundos, e geralmente é. só pode pular repetidamente em um ou dois movimentos.
É por isso que Sora causou muita discussão quando foi lançado. A partir desta noite, o Veo do Google também se tornou o foco da atenção de todos. Do realismo fotográfico ao surrealismo e animação, ele pode abranger a maioria dos estilos de cinema e televisão.
Além do Projeto Astra, o Google também nos fornece um Gemini personalizável – Gems.
O Google disse que pode completar tarefas mantendo características específicas e se tornar um assistente pessoal para milhares de pessoas. Os usuários podem ajustar seu posicionamento para se tornar um amigo de ioga, um personagem popular virtual, um parceiro de fitness, um treinador de redação criativa ou até mesmo um microblogger. Tutores de pontos, etc. são todos um problema.
Gêmeos é louco por textos longos, e a família Gêmeos adicionou um novo membro
O projeto Gemini atraiu muita atenção desde a sua exposição. Houve alguma controvérsia no início, mas depois ela confiou em suas próprias forças para restaurar sua reputação e agora está se tornando cada vez mais madura.
Segundo Pichai, atualmente existem mais de 1,5 milhão de desenvolvedores usando o modelo Gemini, e o número de usuários chega a 2 bilhões. Agora Pichai volta a mencionar a “Era Gemini”, com o objetivo de integrá-la a todos os produtos e trazer novidades. produtos para os usuários também cria novas oportunidades para criadores, desenvolvedores e startups.
O mais recente Gemini 1.5 Pro suporta atualmente 1 milhão de volumes de texto simbólico, e ainda este ano diz-se que este número chegará a 2 milhões, capaz de processar 2 horas de vídeo, 22 horas de áudio, mais de 60.000 linhas de código ou mais de 1,4 milhão de palavras ao mesmo tempo.
Além disso, a conferência também anunciou o Gemini Advanced baseado no Gemini 1.5 Pro, que é capaz de lidar com "múltiplos documentos grandes, totalizando até 1.500 páginas, ou agregação de 100 e-mails", e também suporta 35 idiomas. e mais de 150 países/regiões.
É preciso dizer que, em termos de volume de texto, o Gemini é realmente muito grande, “um grande passo em direção ao objetivo de converter qualquer entrada em qualquer saída”.
A segurança é sempre a principal prioridade
Desde os primórdios da IA, tem havido um debate contínuo sobre como identificar o conteúdo gerado pela IA. A contramedida do Google é adicionar marcas d'água invisíveis às imagens e áudio gerados por IA por meio do SynthID para torná-los mais fáceis de distinguir.
No futuro, o Google expandirá esse escopo para texto e vídeo e, nos próximos meses, ao atualizar a marca d'água de texto SynthID de código aberto do kit de ferramentas de IA generativa, ajudará mais desenvolvedores a construir IA de maneira mais fácil e responsável.
Depois que o Gemini for integrado a ele, o Android emitirá um aviso quando for detectada atividade suspeita durante a chamada, como ser solicitado a fornecer seu CPF e informações bancárias. É como instalar a “central antifraude” diretamente no telefone. .
O recurso de acessibilidade TalkBack também será aprimorado por meio do Gemini Nano. As descrições das imagens serão mais claras e ricas, ajudando os usuários com deficiência visual a operar melhor seus telefones por meio de feedback de voz, refletindo o cuidado humanístico consistente do Google.
Quanto ao desempenho do Google esta noite, a avaliação do gerente de pesquisa da NVIDIA, Jim Fan, é muito pertinente.
O modelo recém-lançado do Google parece ser uma entrada multimodal, mas não uma saída multimodal. Imagen3 e Music AI Sandbox ainda estão separados do Gemini como componentes independentes. A fusão nativa de todas as E/S modais é o futuro inevitável.
Pode realizar tarefas como “usar uma voz mais robótica”, “editar esta imagem”, “gerar histórias em quadrinhos consistentes”.
E sem perder informações nas fronteiras modais, como emoções e sons de fundo, o novo modelo abre novas capacidades contextuais, e os usuários podem ensinar o modelo com alguns exemplos e combinar diferentes significados de maneiras inovadoras.
GPT-4o não é perfeito, mas acerta o formato, parafraseando a metáfora LLM-as-OS de Andre:
Precisamos que o modelo suporte nativamente tantas extensões de arquivo quanto possível.
O Google está fazendo uma coisa certa: finalmente está fazendo um esforço sério para integrar a inteligência artificial na caixa de pesquisa.
Gêmeos não precisa ser o melhor, mas pode ser o mais utilizado.
# Bem-vindo a seguir a conta pública oficial do WeChat do aifaner: aifaner (WeChat ID: ifanr). Mais conteúdo interessante será fornecido a você o mais rápido possível.