O que acaba com a janela de bate-papo do ChatGPT é o “mouse”.

Em São Francisco, em 1968, o cientista da computação Douglas Engelbart apresentou ao mundo uma nova espécie de dispositivo em um evento de lançamento que mais tarde ficou conhecido como "A Mãe de Todas as Demonstrações", segurando uma pequena caixa de madeira com duas rodas de metal.

Essa foi a primeira vez que humanos usaram um mouse em público para guiar um cursor digital em uma tela. Nas décadas seguintes, essa pequena seta tornou-se praticamente onipresente. Ela percorreu softwares de escritório, interfaces de jogos, janelas de navegadores e inúmeras planilhas, tornando-se o guia mais familiar e silencioso da humanidade à medida que adentrávamos o mundo digital.

No entanto, no último meio século, o poder computacional, a forma e os cenários de aplicação dos computadores mudaram quase completamente, mas a essência do cursor do mouse praticamente não se alterou: ele sabe em que coordenadas está na tela, conhece X e Y, mas não sabe se você está apontando para uma linha de código, uma fatura ou uma foto de paisagem.

Diante dos pixels que piscam constantemente, ele só consegue fazer coisas muito básicas: clicar, arrastar e esperar pelo próximo clique.

Hoje, o Google vai reinventar o cursor do mouse com o Gemini.

Na Android Show, que terminou recentemente, o Google apresentou quase todos os seus planos relacionados ao Android, à inteligência artificial e ao ecossistema de hardware. Entre eles, um novo recurso chamado "Magic Pointer" dá ao cursor do mouse "olhos" e um "cérebro".

As intenções do Google são claras: a interação futura com IA não deve depender de instruções longas, mas simplesmente apontar para a tela e dizer "Mova isso para lá", assim como na vida real. Então, a questão é: quando o cursor do mouse finalmente aprender a "entender" a tela, para onde isso levará a interação humano-computador?

O que exatamente essa flecha com inteligência artificial e olhos abertos consegue fazer?

Para entender a importância dessa tecnologia, precisamos primeiro analisar o aspecto mais problemático das ferramentas de IA atuais: os custos de interação.

Nos últimos anos, as capacidades dos grandes modelos de linguagem aumentaram exponencialmente, mas a barreira de entrada para utilizá-los permanece alta. Para que a IA compreenda a intenção com precisão, os usuários são obrigados a aprender uma complexa "engenharia de palavras-chave": definir papéis, adicionar informações contextuais e limitar o formato de saída. Escrever pequenos ensaios de algumas centenas de palavras para uma tarefa simples é algo comum.

Além disso, as ferramentas típicas de IA geralmente são executadas em páginas da web ou janelas de aplicativos separadas, interrompendo frequentemente o fluxo de trabalho do usuário. Por exemplo, ao ler um PDF de 50 páginas e desejar que a IA crie um gráfico, geralmente é necessário seguir os seguintes passos: tirar uma captura de tela -> salvar -> abrir o navegador -> acessar a página da IA ​​-> fazer o upload da imagem -> inserir a palavra-chave solicitada.

O Google chama essa operação complexa entre aplicativos de "desvios de IA". Esse tipo de alternância não é apenas ineficiente, mas também pode facilmente interromper a atenção concentrada das pessoas, o chamado estado de "fluxo".

Para isso, o primeiro princípio de interação do Google é o "fluxo". Em seu protótipo experimental de cursor com IA, as capacidades da IA ​​não estão mais limitadas a um aplicativo ou página da web específica, mas estão integradas ao cursor do mouse, prontas para serem usadas a qualquer momento.

O método de ativação também foi minimizado: não é preciso memorizar atalhos de teclado; basta "agitar" o mouse e a interface de IA aparecerá automaticamente com base no conteúdo sobre o qual o cursor está posicionado, fornecendo sugestões de operação altamente contextualizadas. Selecionar uma imagem perguntará se você deseja "comparar"; passar o cursor sobre um parágrafo oferecerá proativamente soluções de aprimoramento.

Todo o processo não requer instruções e é inteiramente guiado pela intuição. Vejamos alguns cenários extremamente intuitivos:

Primeiro, a forma definitiva de descrição de imagens.

Ao navegar por uma paisagem urbana em desenho animado, um mouse tradicional permite apenas clicar e ampliar. Mas agora, você pode simplesmente posicionar o cursor de IA sobre um prédio no fundo da foto e dizer ao microfone: "Mova este elemento da imagem para cá".

Não é preciso explicar quem é "este lugar" ou descrever a aparência do edifício. O cursor de IA entende diretamente o pixel para o qual você está apontando, identifica o elemento correspondente e se move com sucesso.

Antigamente, um mouse só conseguia informar ao sistema "onde eu cliquei"; agora, ele começou a informar ao sistema "a que eu estou me referindo".

Em segundo lugar, use menos palavras introdutórias e mais referências naturais.

Quando você se depara com uma receita de bolo extremamente complexa em uma página da web, não precisa copiar e colar, nem escrever algo como "Multiplique todas as quantidades dos ingredientes a seguir por dois". Basta selecionar o texto com o cursor e dizer casualmente: "Dobre as quantidades destes ingredientes".

Num instante, a IA reescreveu uma nova receita para você ali mesmo, na hora.

Terceiro, converta pixels em entidades interativas.

Para um computador, uma tela é apenas alguns milhões de pixels brilhantes. Mas um cursor de IA pode transformar esses pixels estáticos em entidades vivas.

Por exemplo, você está assistindo a um vlog de viagem e um restaurante que parece incrível aparece rapidamente no vídeo. Você pausa, aponta o cursor para ele e o vídeo, antes sem vida, se transforma instantaneamente em um local real e interativo, com um link para reserva do restaurante surgindo ao lado.

Por exemplo, você tira uma foto de um post-it rabiscado e, com um simples movimento do mouse, a tinta se transforma em uma lista de tarefas com marcas de seleção. Percebe algo? Antes, você precisava procurar por IA; agora, a IA segue o movimento do seu mouse e aparece obedientemente na ponta do seu dedo.

Elimine os comandos da IA ​​e retorne à intuição humana.

Ao analisar mais a fundo, percebe-se que a ferramenta de comunicação mais poderosa da humanidade são, na verdade, os pronomes.

Quando você e seus colegas estão sentados em frente à tela revisando um projeto, vocês nunca diriam em voz clara e articulada: "Por favor, movam o retângulo azul no canto superior esquerdo da tela (X:120, Y:350) 50 pixels para a direita." Vocês simplesmente apontariam para a tela e diriam:

"Mova isso um pouco para a direita e dilua um pouco."

"Aquele restaurante parece bom, como chegamos lá?"

O que significa esta mensagem de erro no código?

Em nosso dia a dia, dependemos muito de "isto" e "aquilo". Gestos combinados com o mínimo de linguagem falada são o código de comunicação mais eficiente para os seres humanos. Isso ocorre porque vivemos no mesmo espaço físico e compartilhamos o mesmo contexto visual.

O Google captou essa ideia com perspicácia e a sintetizou em um princípio de produto: Abrace o poder do "Isto" e do "Aquilo".

Em vez de forçar os humanos a aprender estruturas complexas de palavras-chave, deveríamos fazer o oposto: remover de nós o trabalho árduo de expressar intenções e deixar que as máquinas se adaptem aos gestos mais preguiçosos e instintivos dos humanos.

A boa notícia é que esse método de interação já está sendo implementado. O Gemini, no navegador Chrome, é o primeiro a oferecer suporte a ele a partir de hoje; a recém-lançada linha de laptops Googlebook do Google tem o "Magic Pointer" integrado diretamente ao sistema operacional, abrangendo todos os aplicativos.

As ambições do Googlebook vão muito além de um simples mouse. O Google define essa linha de produtos como "o companheiro perfeito para celulares Android".

Semelhante ao espelhamento do iPhone da Apple, os usuários podem projetar aplicativos Android na área de trabalho do Google Books sem problemas, executando-os na proporção nativa e navegando livremente entre os dispositivos no gerenciador de arquivos, eliminando completamente as barreiras entre celulares, tablets e laptops. Além disso, o Gemini pode gerar widgets dinâmicos personalizados na área de trabalho conforme necessário (como um cartão de voo em tempo real para um passageiro).

Em termos de design de hardware, todos os modelos do Googlebook integram uma faixa de luz "Glowbar" na estrutura, permitindo distingui-lo dos Chromebooks tradicionais ou laptops com Windows à primeira vista.

O primeiro lote de Googlebooks será fabricado pela Acer, Asus, Dell, HP e Lenovo, e a previsão é de que esteja disponível neste outono.

Curiosamente, a Samsung está ausente desta lista. Relatórios recentes sugerem que a Samsung pode estar preparando um laptop Galaxy com o novo sistema operacional do Google, e seu próximo evento Unpacked está previsto para 22 de julho.

Quanto ao núcleo de processamento subjacente, embora o Google não o tenha nomeado, a ênfase dada ao longo do artigo a "um sistema operacional moderno criado para a inteligência" e a profunda integração do Android e do ChromeOS apontam para o tão falado sistema "Aluminum".

Isso significa que a IA está começando a se tornar uma infraestrutura no nível do sistema operacional. E quando a IA realmente se torna o cursor do seu mouse, ela ganha a autoridade para intervir em tudo — o que você vê é o que você obtém, o que você aponta é o que você controla.

A interação entre humanos e computadores feita por meio da inteligência artificial está em uma encruzilhada.

Remontando a 1968, o primeiro rato que impressionou o mundo tinha uma função incrivelmente simples: rastrear a posição. Ao longo dos últimos cinquenta anos, o rato foi aprimorado com rodas de rolagem, botões laterais e até mesmo ventoinhas e pesos, mas a sua essência permanece uma tela em branco: marca coordenadas com precisão, mas nunca consegue compreender o significado por trás dessas coordenadas.

O cursor de IA do Google alcançou uma evolução sem precedentes na história da interação: ele não só sabe onde você está, como também o que você é.

Ao longo do último ano, inúmeras startups que garantiram financiamento se apressaram para criar a próxima "super porta de entrada para a era da IA". Todos estão freneticamente focados no realismo das caixas de diálogo e na complexidade dos fluxos de trabalho dos agentes. Mas o Google agora deu a toda a indústria uma lição clara:

Qual é a melhor tecnologia? É a influência sutil e abrangente. Os chatbots nunca serão a forma final da IA; são apenas um meio-termo durante um período de transição. A melhor IA deve se tornar discreta, integrando-se à infraestrutura do seu dia a dia, em vez de ser apenas um aplicativo separado que precisa ser aberto.

Das interfaces de linha de comando (CLI) com texto preto em fundo branco, às interfaces gráficas de usuário (GUI) com cliques do mouse, e depois aos gestos de deslizar em telas sensíveis ao toque na era dos dispositivos móveis (NUI), os grandes modelos de linguagem nos levaram brevemente de volta à era da comunicação por digitação nos últimos anos, fazendo com que inúmeras pessoas sofressem de ansiedade relacionada ao Prompt.

Mas, depois do que aconteceu hoje, sabemos que foi apenas um desvio antes do amanhecer. Uma IA verdadeiramente útil precisa, eventualmente, aprender a pensar como os humanos: a entender cada olhar seu e a compreender cada "coloque isso ali" que você diz.

Há cinquenta e oito anos, quando Douglas Engelbart segurava aquele simples rato de madeira, seu maior sonho era "aprimorar a inteligência humana".

Cinquenta e oito anos depois, com a IA integrada a esse ponteiro ancestral, as máquinas finalmente começam a realmente "compreender" o mundo. A era dos engenheiros que respondiam prontamente está chegando ao fim, e o ciclo fechado definitivo da interação humano-computador dará um salto histórico a cada ambiguidade entre "isto" e "aquilo".

Aqui está o link para experimentar:
https://aistudio.google.com/apps/bundled/ai-pointer-create?showPreview=true&showAssistant=true&fullscreenApplet=true

https://aistudio.google.com/apps/bundled/ai-pointer-find?showPreview=true&showAssistant=true&fullscreenApplet=true

Autor: Mo Chongyu

#Siga a conta oficial do iFanr no WeChat: iFanr (ID do WeChat: ifanr), onde você encontrará conteúdo ainda mais interessante o mais breve possível.