A IA pode realmente substituir seu teclado e mouse?
“Olá ChatGPT, clique com o botão esquerdo no campo de senha na janela pop-up que aparece no quadrante inferior esquerdo da tela e preencha XUS&(#($J e pressione Enter.”)
Divertido, né? Não, obrigado. Vou só mexer no meu mouse barato e digitar os 12 caracteres no meu teclado que faz cliques desnecessários, em vez de falar a senha em voz alta no meu espaço de coworking.
É muito legal ver o ChatGPT entender seu comando de voz, reservar um ingresso barato para oito pessoas assistirem a uma partida do Liverpool em Anfield e te levar até a tela de pagamento. Mas ei, você confiaria a senha a ele? Ou você não digita a senha com um teclado físico?
Imagine apostar tudo na IA e perceber que a última etapa, onde você REALMENTE precisa de um teclado ou mouse, não é possível, e agora você está preso. Mas essa é exatamente a pergunta que muitos têm feito depois de ver agentes de IA chamativos e vídeos de automação de empresas como Google, OpenAI e Anthropic.
É uma pergunta legítima
IA foi o tema central do evento I/O do Google no início deste ano. Ao final da palestra, eu estava convencido de que os smartphones Android não seriam mais os mesmos. E, por consequência, qualquer plataforma em que o Gemini venha a se estabelecer — desde aplicativos do Workspace, como o Gmail, até a navegação no Google Maps enquanto estiver sentado em um carro.
A demonstração mais impressionante foi o Projeto Mariner e o próximo protótipo de pesquisa do Projeto Astra . Pense nele como um assistente de conversação de última geração que permitirá que você converse e realize tarefas reais , sem precisar tocar na tela ou usar o teclado. Você pode transferir suas consultas de um manual do usuário hospedado no site de uma marca para vídeos instrucionais do YouTube, sem precisar repetir o contexto.
É quase como se o verdadeiro conceito de memória tivesse chegado para a IA . Em um navegador da web, ele reserva passagens para você, levando-o à página final, onde você só precisa confirmar se todos os detalhes estão conforme solicitado e prosseguir com o pagamento. Isso nos leva a questionar se o teclado e o mouse são conceitos mortos para entradas digitais, à medida que as interações por voz ganham destaque na IA.
O fardo do erro

Por mais estranho que pareça, seu computador já vem com controle de voz para navegar pelo sistema operacional. Em PCs com Windows e macOS, você encontra as ferramentas de acesso por voz como parte do pacote de acessibilidade. Há vários atalhos disponíveis para acelerar o processo, e você também pode criar os seus.
Com o advento dos modelos de IA de última geração, estamos falando em abandonar o teclado e o mouse para todos, e não apenas promovê-los como uma tecnologia assistiva.
Imagine uma combinação do uso do computador de Claude e da entrada rastreada pelo olhar do headset Vision Pro da Apple . Caso você não esteja familiarizado, o uso do computador da Anthropic é um agente de uso do computador. A Anthropic afirma que ele permite que a IA "use computadores da mesma forma que as pessoas — olhando para uma tela, movendo um cursor, clicando em botões e digitando texto".

Agora, imagine um cenário em que sua intenção é transmitida como voz para Claude, captada pelos microfones de bordo, e a tarefa é executada. Para qualquer etapa final exigida de você, gestos preenchem a lacuna. O Vision Pro demonstrou que controles de rastreamento ocular são possíveis e funcionam com alto grau de precisão.
Além dos headsets, a IA controlada por voz ainda funciona em um computador comum. A Hume AI, em parceria com a Anthropic, está desenvolvendo um sistema chamado Empathetic Voice Interface 2 (EVI 2), que transforma comandos de voz em entradas de computador. É quase como falar com a Alexa, mas em vez de pedir brócolis, a assistente de IA entende o que estamos dizendo e transforma em entrada de teclado ou mouse.
Tudo isso parece ótimo, mas vamos pensar em alguns cenários realistas. Você precisará de um teclado para edições de mídia refinadas. Fazer pequenas alterações em uma tela de codificação. Preencher células em uma planilha. Imagine dizer: "Ei, Gemini, coloque quatro mil oitocentos e noventa e cinco dólares na célula D5 e marque como despesa de viagem aérea?" É, eu sei. Eu também digitaria.
A última milha, não o fim
Se você assistir às demonstrações do Modo IA na Busca, do agente do Projeto Mariner e do Gemini Live, terá um vislumbre da computação por voz. Todos esses avanços da IA parecem incrivelmente convenientes, até que deixam de ser. Por exemplo, em que momentos fica irritante dizer coisas como "Vá para a caixa de diálogo no canto superior esquerdo e clique com o botão esquerdo no botão azul que diz Confirmar ".
É muito trabalhoso, mesmo que todas as etapas anteriores fossem realizadas de forma autônoma por uma IA.

E não nos esqueçamos do elefante na sala. A IA tem o hábito de enlouquecer . "Neste estágio, ainda é experimental — às vezes, trabalhoso e sujeito a erros", alerta a Anthropic sobre Claude Computer Use. A situação não é muito diferente do Operator Agent da OpenAI , ou de uma ferramenta similar de mesmo nome atualmente em desenvolvimento na Opera, o pessoal por trás de um navegador web muito bacana .
Remover o teclado e o mouse de um computador com IA é como dirigir um Tesla com o sistema de direção totalmente autônomo (FSD) habilitado , mas sem a direção e os controles disponíveis são os pedais do freio e do acelerador. O carro certamente levará você a algum lugar, mas você precisa assumir o controle caso algum evento inesperado aconteça.
No contexto da computação, pense no solucionador de problemas, onde você DEVE estar no comando. Mas vamos supor que um modelo de IA, impulsionado principalmente por voz (e captado pelo microfone do seu computador preferido), o leve à etapa final, onde você precisa encerrar o fluxo de trabalho, como efetuar um pagamento.

Mesmo com as Chaves de Acesso, você precisará pelo menos confirmar sua identidade digitando a senha, abrindo um aplicativo autenticador ou tocando em um sensor de impressão digital? Nenhum fabricante de sistema operacional ou desenvolvedor de aplicativos (especialmente aqueles que lidam com verificação de identidade) permitiria que um modelo de IA tivesse controle total sobre essa tarefa crítica.
É muito arriscado automatizar com um agente de IA, mesmo com conveniências como as Chaves de Acesso. O Google costuma dizer que o Gemini aprende com a memória e com as suas próprias interações. Mas tudo começa com a permissão para que ele monitore o uso do seu computador, que depende fundamentalmente da entrada do teclado e do mouse. Então, sim, voltamos à estaca zero.
Ir para o virtual? A espera é longa
Quando falamos em substituir o mouse e o teclado do computador por IA (ou qualquer outro avanço), estamos apenas falando em substituí-los por um proxy. E então chegar a um substituto familiar. Há muito material de pesquisa por aí falando sobre mouses e teclados virtuais, datando de pelo menos uma década, muito antes do artigo seminal "transformers" ser publicado e impulsionar a indústria de IA para a próxima fase.

Em 2013, a DexType lançou um aplicativo que se conectava ao minúsculo hardware da Leap Motion para possibilitar uma experiência de digitação virtual no ar. Não era necessária uma tela sensível ao toque nem um projetor a laser sofisticado como o Humane AI Pin . A Leap Motion morreu em 2019, mas a ideia não. A Meta é indiscutivelmente a única empresa que possui um conjunto realista de software e hardware pronto para uma forma alternativa de entrada e saída na computação, algo que ela chama de interação humano-computador (IHC).
A empresa vem trabalhando em wearables para uso no pulso que permitem uma forma totalmente diferente de controle baseado em gestos. Em vez de rastrear o movimento espacial dos dedos e membros, a Meta utiliza uma técnica chamada eletromiografia (EMG). Ela transforma sinais nervosos motores elétricos gerados no pulso em entradas digitais para controlar dispositivos. E sim, a entrada de cursor e teclado é parte essencial do pacote.

Ao mesmo tempo, a Meta também afirma que esses gestos serão mais rápidos do que um simples pressionamento de tecla, pois estamos falando de sinais elétricos que viajam da mão diretamente para o computador, em vez do movimento dos dedos. "É uma maneira muito mais rápida de agir de acordo com as instruções que você já envia ao seu dispositivo quando toca para selecionar uma música no celular, clica com o mouse ou digita no teclado hoje em dia", diz a Meta.
Menos substituições, mais reembalagens
Há dois problemas com a abordagem do Meta, com ou sem a IA entrando em cena. O conceito de cursor ainda está muito presente, assim como o teclado, mesmo em formato digital. Estamos apenas migrando do físico para o virtual. A substituição que o Meta está promovendo parece muito futurista, especialmente com os modelos multimodais de IA Llama do Meta entrando em cena.
Depois, há o dilema existencial. Esses wearables ainda estão muito presentes no reino dos laboratórios de pesquisa. E quando forem lançados, não serão baratos, pelo menos nos primeiros anos. Até mesmo aplicativos básicos de terceiros, como o WowMouse, estão vinculados a assinaturas e limitados pelas limitações do sistema operacional.
Não consigo imaginar trocar meu teclado barato de US$ 100 por um dispositivo experimental para entrada por voz ou gestos, e imaginá-lo substituindo a entrada completa de teclado e mouse no meu fluxo de trabalho diário. Mais importante ainda, levará um tempo até que os desenvolvedores adotem entradas baseadas em linguagem natural em seus aplicativos. Esse será um processo longo e demorado.
E quanto às alternativas? Bem, já temos aplicativos como o WowMouse , que transforma seu smartwatch em um centro de reconhecimento de gestos para movimentos dos dedos e da palma da mão. No entanto, ele serve apenas como um substituto para os gestos de cursor e toque, e não como uma experiência de teclado completa. Mas, novamente, permitir que aplicativos acessem seu teclado é um risco que os donos dos sistemas operacionais vão protestar. Lembra dos keyloggers?
No fim das contas, chegamos a um ponto em que as capacidades de conversação dos modelos de IA e suas habilidades de agente estão dando um salto enorme. Mas eles ainda exigiriam que você cruzasse a linha de chegada com um clique do mouse ou alguns toques de tecla, em vez de substituí-los completamente. Além disso, eles são muito trabalhosos quando você pode pressionar um atalho de teclado ou o mouse em vez de narrar uma longa cadeia de comandos de voz.
Em suma, a IA reduzirá nossa dependência de informações físicas, mas não a substituirá. Pelo menos, não para as massas.