A versão para PC do Qianwen lança o método de entrada por voz: os trabalhadores finalmente podem usar suas vozes para realizar suas tarefas.

Após a popularização do Vibe Coding, cada vez mais pessoas optaram por falar na tela em vez de digitar no teclado, e muitos internautas chegaram a criar teclados de voz com IA para esse fim.

Em março deste ano, a Anthropic também adicionou um modo de voz ao Claude Code. Basta digitar `/voice` no terminal, manter pressionada a barra de espaço para falar e soltar para executar. É difícil imaginar que até mesmo um cenário como "escrever código", que depende principalmente da entrada pelo teclado, esteja começando a suportar voz.

Desde que os programadores começaram a usar a boca para trabalhar, obviamente não é eficiente para mim, uma pessoa que trabalha e escreve artigos, planos, apresentações em PowerPoint e planilhas todos os dias, continuar digitando palavra por palavra. Principalmente quando preciso alternar entre três páginas para procurar dados, levo três horas para encontrar um modelo para criar uma apresentação em PowerPoint e ainda perco metade da ata da reunião, mesmo quando estou ouvindo e anotando.

O motivo disso é que nem todos possuem boas habilidades de expressão oral. Embora alguns métodos de entrada de IA possam resolver esse problema, como o Typeless, que apresentamos anteriormente, a taxa de assinatura anual custa 1.000 yuans.

Na plataforma de computador usada para trabalho, ainda não existe uma interface de entrada de voz integrada com recursos avançados de IA para escritório. Felizmente, a Qianwen lançou recentemente seu método de entrada de voz para versões de PC e web, com o objetivo de permitir "trabalhar com a sua voz". Além disso, a versão para PC da Qianwen é totalmente gratuita — não apenas a entrada de voz é gratuita, mas todos os seus recursos de IA para escritório também são totalmente acessíveis.

Não se deixe enganar pelo nome "método de entrada".

Inicialmente, ao ver o nome Qianwen Voice Input Method, inconscientemente pensei que se tratava de um método de entrada de IA com melhor precisão de reconhecimento, mas descobri que não era a mesma coisa.

O método de entrada de voz Qianwen é incrivelmente fácil de usar. Dois atalhos resolvem tudo: pressione e segure para entrada de voz, clique duas vezes para deixar a IA fazer o trabalho. No Windows, é a tecla Alt direita; no Mac, é a tecla Command direita. Você pode personalizar o atalho de acordo com suas preferências.

Quer esteja a escrever um documento no Word, a navegar na internet ou a responder a mensagens no DingTalk, basta pressionar uma tecla para aceder ao ponto de entrada de voz. Não precisa de mudar para a aplicação Qianwen nem de abrir uma janela extra. Pergunte o que quiser, diga o que quiser.

O método de entrada de voz Qianwen oferece principalmente duas formas de uso: pressione e segure para iniciar a entrada de voz e, em seguida, simplesmente fale o que vier à mente. Qianwen removerá automaticamente a fala arrastada, corrigirá lapsos de língua e gerará expressões estruturadas. Um clique duplo ativa os comandos de voz, nos quais você atribui tarefas à IA, como pesquisar algo, responder a mensagens ou gerar documentos.

Desde o início, a ideia não era apenas que fosse um método de entrada que "ajudasse você a digitar mais rápido". Sua boca é responsável por emitir os comandos; ela é uma interface central responsável por entender, traduzir e agendar, permitindo que a IA faça o trabalho e o entregue a você.

Falar é muito mais conveniente do que digitar.

Em 2026, minhas exigências para um método de entrada de voz irão muito além da precisão de reconhecimento. Ser capaz de ouvir e transcrever palavras com clareza é apenas o básico; mais importante ainda, ele precisa entender o que eu quero expressar e me ajudar a organizar isso.

Por exemplo, quando expresso meus pensamentos verbalmente, consigo preservar minhas intenções, filtrar tudo o que não é relevante para meus colegas e corrigir eventuais lapsos de língua. O resultado é um texto claro e conciso que pode ser enviado diretamente.

Por exemplo, ao me deparar com problemas como atrasos em projetos, posso pedir à Qianwen que organize as informações em uma declaração escrita clara, enquanto eu simplesmente pressiono uma tecla de atalho e dou feedback verbal à Qianwen.

Em relação ao atraso deste projeto, eu… ah, não, eu quis dizer o ajuste no cronograma. O plano original era entregar nesta sexta-feira, mas… é… como o cliente adicionou três novos requisitos de última hora, estimamos que levaria mais dois dias, então… não, meu ponto final é: o prazo de entrega do projeto foi ajustado desta sexta-feira para a próxima quarta-feira. O motivo é que o cliente adicionou três novas funcionalidades, que exigem uma avaliação técnica complementar. Prometemos entregar a versão inicial do projeto até a próxima quarta-feira.

Após soltar a tecla, o resultado apareceu. É possível ver que ele apagou automaticamente todas as interjeições como "ah não", "uh" e "mas", resumindo claramente a essência da minha expressão. Comparado à entrada de voz comum, que só grava palavra por palavra e exige edição manual, o Método de Entrada de Voz Qianwen praticamente não requer ajustes manuais e pode ser enviado diretamente.

Em comunicações de projetos mais profissionais e complexos, o método de entrada de voz Qianwen torna-se ainda mais prático.

Por exemplo, na seguinte solicitação de comunicação, observe que, depois de pressionar e segurar e dizer várias coisas, acrescentei no final: "Coloque a parte dos dados primeiro."

O principal objetivo desta reformulação do produto é melhorar a retenção de novos usuários. Adicionamos três etapas de orientação ao processo de integração, reduzindo as cinco etapas originais para três, e incluímos indicadores de progresso em cada etapa. Além disso, constatamos que muitos usuários abandonavam o produto na segunda etapa, então reduzimos o número de campos no formulário da segunda etapa de oito para três campos obrigatórios. Em termos de dados, a taxa de retenção em uma semana melhorou de 35% para 48% após a reformulação, e a taxa de retenção no dia seguinte aumentou 12 pontos percentuais. No entanto, existe um risco: o formulário simplificado coleta menos informações do usuário, o que pode afetar a eficácia das recomendações direcionadas subsequentes; isso requer monitoramento contínuo. Por fim, em relação à colaboração da equipe, o departamento de design produziu duas versões da solução em duas semanas, e o departamento de desenvolvimento concluiu o lançamento em três dias, resultando em um ritmo geral muito rápido.

Os resultados são ainda mais evidentes aqui. Somente Qianwen entendeu a instrução de "colocar o parágrafo de dados em primeiro lugar" e reorganizou os parágrafos automaticamente. Eu completei a operação que originalmente exigia mouse e teclado apenas falando.

▲ Resultados da entrada de voz padrão

▲ Resultados do Método de Entrada de Voz Qianwen

Durante o processo de teste, descobri também um detalhe que me surpreendeu: o método de entrada de voz Qianwen é particularmente bom em reconhecer conteúdo falado que mistura chinês e inglês.

A função principal desta função é lidar com a verificação do token durante o login do usuário. Primeiro, ela chama o método `validateToken` para verificar se o token expirou. Se expirou, retorna um erro 401. Em seguida, se for válido, chama a interface `getUserInfo` para recuperar as informações do usuário. Finalmente, grava o `userId` e a `role` na sessão. Observe que há um caso excepcional: quando o token é um token de atualização, um ramo lógico diferente é executado.

Qianwen não só reconheceu corretamente todos os termos em inglês, como também os apresentou automaticamente em tópicos de acordo com as minhas palavras, tornando-os muito claros.

▲ Resultados do Método de Entrada de Voz Qianwen

Gostaria também de compartilhar uma dica particularmente útil para criadores de conteúdo: a APPSO realiza uma reunião de seleção de tópicos todas as manhãs, onde todos têm muitas ideias fragmentadas — um fenômeno em alta, uma observação do setor, uma previsão de tendência…

Antes, algumas das minhas ideias eram dispersas e assistemáticas. Agora, posso ativar diretamente o método de entrada de voz do Qianwen durante as reuniões e organizar essas ideias em um esboço. Por exemplo, este longo trecho do meu feedback aos editores sobre a seleção de tópicos durante a reunião é mostrado na imagem abaixo:

▲ Resultados do Método de Entrada de Voz Qianwen

Após liberar o projeto, um esboço detalhado do tema surgiu. O editor conseguiu absorver meu feedback com facilidade e, com pequenas adições, escrever uma análise aprofundada. Aqui está o artigo final para todos verem: A Apple descontinua silenciosamente o Mac mini de entrada; chegou a era em que todos terão que pagar um "imposto de IA".

Em termos de entrada de voz, a maior impressão que Qianwen me passou é que realmente não importa o quão rápido ou desorganizado você fale, porque a IA compensará a qualidade da saída.

Tudo pode ser Vibeed, é apenas uma questão de palavra.

A entrada por voz é apenas o primeiro passo; o maior valor do Método de Entrada por Voz Qianwen é que ele também pode te ajudar com tarefas.

Como mencionei anteriormente, eu precisava organizar o esboço do tópico e, em seguida, me dedicar à escrita. No entanto, sempre que precisava consultar dados ou um relatório, tinha que alternar para outras páginas da web e aplicativos. Foi aí que o Método de Entrada de Voz Qianwen se mostrou útil – ele oferece ativação global em qualquer software ou na área de trabalho, permitindo que eu buscasse informações diretamente apenas com a minha voz, sem precisar trocar de janela.

Por exemplo, quando eu estava escrevendo um artigo sobre a OpenAI, havia uma seção em que eu precisava citar o valor do financiamento mais recente e os investidores. Dei um duplo clique para ativar os comandos de voz e disse: "Encontre para mim o histórico de financiamento mais recente da OpenAI".

Após pensar por um ou dois segundos, a mini-janela do Qianwen aparece e me envia os resultados detalhados. Consulto as referências e continuo escrevendo, para que meu estado de concentração não seja interrompido.

Acabei de voltar das férias e tenho um monte de trabalho me esperando. Preciso elaborar um relatório semanal claro, mas não tenho tempo para digitá-lo com calma, então simplesmente cliquei duas vezes e escrevi os requisitos rapidamente, o que incluiu muita expressão verbal:

Olá, gostaria de atualizar você sobre o progresso desta semana… O Projeto A está atualmente na terceira fase, mas tivemos um atraso na entrega de um fornecedor, cerca de três dias, porém conseguimos compensar com horas extras… O Projeto B ainda está em fase de revisão de requisitos, e o protótipo do produto está um pouco desfocado. Agendamos uma reunião de alinhamento para a próxima segunda-feira, às 10h… Também precisamos solicitar dois servidores de teste na próxima semana… Você poderia me ajudar a organizar isso em um relatório semanal em formato Word, com um tom profissional e uma organização clara?

Além disso, o método de entrada de voz Qianwen possui um recurso ainda mais interessante: ajuda você a responder mensagens.

Diariamente, preciso navegar entre vários grupos de projetos no WeChat, DingTalk, Lark e outras plataformas, respondendo a todos os tipos de mensagens. É incrivelmente cansativo, e é nessas horas que posso deixar a Qianwen falar por mim.

Por exemplo, se meu colega estiver me pressionando para enviar um artigo antes mesmo do fim do feriado, eu clicarei duas vezes para pedir que ele escreva uma resposta com alta inteligência emocional para mim.

▲ Não preciso fornecer nenhuma informação de contexto; o sistema consegue preencher o contexto com base no conteúdo da tela e me dar uma resposta "inteligente".

Em situações que envolvem clientes ou ambientes mais formais, posso clicar duas vezes para gerar uma resposta adequada.

Isso acontece porque o método de entrada de voz Qianwen oferece "reconhecimento de contexto". Ele reconhece automaticamente o aplicativo que você está usando e o conteúdo que está sendo exibido na tela, ajustando o estilo de saída de acordo. Você não precisa fornecer nenhuma informação adicional; ele entende tudo sozinho.

Vou fazer uma viagem de negócios na próxima semana, então cliquei duas vezes no ícone do WeChat e ele me ajudou a organizar as informações da conversa em um guia de viagem.

O guia de viagem final que me deram incluía não apenas informações sobre voos, mas também uma lista de tarefas e sugestões específicas com base nas condições climáticas e de trânsito locais, o que foi muito útil para um profissional da mídia que viaja com frequência.

Durante a reunião semanal, descobri um truque muito útil: no início da reunião, dou um duplo clique para abrir o método de entrada de voz Qianwen e, no final, digo: "Ajude-me a organizar o conteúdo que acabei de dizer em ata da reunião". Ela organiza tudo automaticamente para mim.

Esta ferramenta é perfeita para reuniões rápidas e improvisadas, eliminando a necessidade de abrir um aplicativo separado para gravar reuniões; basta clicar duas vezes para fazer anotações instantaneamente.

Basta falar com o computador, e a IA fará o trabalho sozinha.

Não me interpretem mal, gritar "Ajude-me a encontrar informações" ou "Escreva um e-mail" para o computador é apenas uma operação básica para a IA atualmente.

O grande trunfo da versão para PC do Qianwen desta vez é a combinação de entrada de voz com funções como criação de apresentações em PowerPoint, planilhas com inteligência artificial e processamento de documentos. Essa é uma função prática que pode realmente ajudar os trabalhadores a "sair do trabalho uma hora mais cedo todos os dias".

Considere a tarefa mais tediosa, o PowerPoint, por exemplo. Em vez de montar modelos genéricos a partir de uma biblioteca de recursos, o Qianwen gera layouts complexos dinamicamente usando os recursos de codificação de um modelo em larga escala. Se você achar que algo não está perfeito, basta participar de várias rodadas de diálogo para que seja revisado até que você fique satisfeito.

Para testar suas capacidades, primeiro pedi que criasse um curso em PowerPoint sobre operação de contas em vídeo. Quase instantaneamente após a transmissão da voz, a IA entrou em modo de processamento extremamente rápido: preenchendo os detalhes e aplicando a lógica de uma só vez.

O mais surpreendente é que a compreensão de Qianwen sobre "texto e imagens intercalados" não se resume a uma aplicação rígida, mas sim a um layout diferenciado que se adequa à profundidade do conteúdo. Toda a apresentação em PowerPoint está praticamente pronta para ser entregue.

Mas não é só isso. Você também pode alimentar o Qianwen com até 39 documentos de referência diferentes em vários formatos simultaneamente, permitindo que ele organize automaticamente a lógica e extraia os pontos principais, poupando o trabalho de folhear os materiais repetidamente. Quanto às imagens, ele pode combiná-las automaticamente com base no contexto e, se não encontrar uma adequada, pode até gerar uma imagem bruta instantaneamente, sem que você precise sair da interface para usar um mecanismo de busca ou baixá-la e processá-la com o Office.

Em termos de processamento de planilhas, o Excel Agent da Qianwen apresenta um alto padrão.

Seja uma captura de tela de um bate-papo com formatação informal, anotações manuscritas ou um grande bloco de texto simples, basta fornecer o conteúdo e ele gerará rapidamente uma planilha padrão do Excel. Se precisar calcular a taxa de crescimento ou criar um gráfico de tendências posteriormente, não precisa mais se preocupar em escrever fórmulas complexas; basta fornecer comandos em linguagem natural e ele cuidará de tudo.

Tentei realizar uma tarefa um pouco complexa: compilar a estrutura gramatical, as variações de tempo verbal e exemplos de frases para cada padrão de sentença em uma planilha do Excel, com base no livro didático de inglês do ensino fundamental de Guangzhou de 2026. A planilha deve ser formatada para caber em uma única página, facilitando a memorização.

Antigamente, esse tipo de tarefa exigiria a busca manual de informações, a inserção de dados e o ajuste do formato, o que levaria pelo menos meia hora. Agora, em resumo, a tabela é gerada automaticamente, incluindo nomes de colunas, espaçamento entre linhas e frases de exemplo, praticamente sem necessidade de ajustes manuais.

No que diz respeito ao processamento de documentos, o Word/PDF Agent suporta o carregamento de dados mistos de texto e imagem, e pode formatar e gerar automaticamente arquivos prontos para entrega.

O mais interessante é que, depois de enviar um documento extenso, você não precisa folheá-lo para encontrar os pontos principais. Basta perguntar, e o sistema localiza e fornece a resposta rapidamente. Se quiser fazer alguma alteração, basta dizer uma frase, evitando o trabalho de modificar o documento original manualmente, trecho por trecho.

Tentei enviar um contrato complexo em PDF e perguntei diretamente: "Quais são os conteúdos licenciados com exclusividade?" Em vez de simplesmente repetir todo o texto, a plataforma indicou os termos da licença e listou claramente o escopo da exclusividade, o período da licença e as restrições.

Atualmente, esse comando de voz pode até ser combinado com funções de assistente de tarefas, como programação de IA e criação manual de páginas da web. Se essa tendência continuar, o futuro do trabalho de escritório provavelmente será mesmo "fazer as coisas apenas conversando".

Pessoas que interagem com inteligência artificial sairão do trabalho mais cedo do que pessoas que digitam em um teclado.

Depois de usar o método de entrada de voz Qianwen por um tempo, algo me veio à mente.

Nos últimos anos, houve muita propaganda sobre a "IA melhorando a eficiência no escritório", mas a experiência da maioria das pessoas tem sido: conversei com a IA por um longo tempo, mas o que ela me deu foi completamente inutilizável. Então, elas concluíram que a IA não tinha nada de especial.

Onde reside o problema? Ele reside no método de comunicação. Quando você conversa com uma IA usando um teclado, 40% da sua energia é gasta organizando o texto, restando apenas 60% para descobrir o que você realmente quer. As instruções que você fornece têm baixa densidade de informação e contexto superficial, então é claro que a IA produzirá um resultado sem sentido. Não é que a IA seja incompetente; é que o que você está fornecendo a ela é incompetente.

O reconhecimento de voz resolve esse problema. Você não define limites de palavras ao falar; os detalhes surgem naturalmente e o contexto se expande automaticamente. Ele organiza meticulosamente as solicitações em linguagem natural falada, permitindo que a IA as execute com precisão.

Yash Tekriwal, chefe de educação da plataforma de vendas Clay, com sede em Nova York, mencionou que consegue digitar a uma velocidade de 205 palavras por minuto usando entrada de voz, em comparação com apenas 110 a 120 palavras por minuto ao digitar. Mas a velocidade não é o fator mais crucial; ele descobriu que os comandos de voz são de qualidade superior.

Um termo que tem estado em alta no mundo da IA ​​ultimamente é "arnês". Significa, basicamente, que você tem um cavalo (as capacidades da IA), mas precisa de rédeas para controlá-lo e fazê-lo correr na direção desejada. Sem arreios, mesmo o cavalo mais forte ficará girando em círculos.

O método de entrada de voz usado na versão para PC do Qianwen é este Harness.

Ele se conecta à sua boca em uma extremidade e ao conjunto completo de recursos de escritório da IA ​​na outra: PowerPoint, planilhas, documentos, busca, análise e conversão de formatos. Você fala uma frase e ele traduz sua intenção em instruções que a IA pode executar, enviando então o agente correspondente para realizar a tarefa. Não é um método de entrada; são as rédeas. É o arnês que você usa para gerenciar os recursos de escritório da IA.

O que outros "métodos de entrada com IA" resolvem? Eles resolvem o problema do ponto de entrada, ajudando você a encontrar onde a IA está. O Qianwen resolve o problema do domínio, ajudando você a utilizar com precisão as capacidades da IA. Um guia você, o outro assume o controle e te coloca no caminho certo. Essa é a diferença.

Na era dos agentes, a voz é a forma mais natural e eficiente de impulsionar a IA. O Método de Entrada de Voz Qianwen é o primeiro produto a lançar essa funcionalidade na interface de desktop, e é por isso que espero ver esse tipo de interface de voz, capaz de realmente aproveitar a IA, em mais dispositivos no futuro.

Nesta mesma época do ano passado, se você de repente começasse a falar com o computador no escritório, uma ou duas vezes isso seria confundido com uma ligação telefônica. Depois de algumas vezes, as pessoas começariam a se perguntar se você estava sob muita pressão no trabalho e se estava em um bom estado mental.

A partir deste ano, quem fala sozinho em frente ao computador provavelmente será o primeiro a abandonar o trabalho (matando tempo).

Link para download do cliente:
https://www.qianwen.com/download?ch=tongyi_redirect
Endereço de acesso à versão web:
https://www.qianwen.com/

#Siga a conta oficial do iFanr no WeChat: iFanr (ID do WeChat: ifanr), onde você encontrará conteúdo ainda mais interessante o mais breve possível.