Posso fazer as coisas apenas com a boca. Essas 7 ferramentas de IA se tornaram ferramentas de produtividade inseparáveis ​​para mim|A IA é útil.


A voz é um meio que é “mel para uma pessoa e arsénico para outra”. Amigos que foram bombardeados por mensagens de voz de 60 segundos no WeChat sabem melhor como é.

Você disse que a saída de voz é rápida, mas acho que parece inconveniente. Você acha que a voz é mais emotiva, eu acho que o texto é mais claro. As posições são opostas e as atitudes em relação à pronúncia também são diferentes.

Felizmente, a IA, que já remodelou muitos produtos, finalmente deixou sua marca nas ferramentas de voz. Isso pode fazer você pensar que a voz não é tão irritante.

APPSO selecionou várias ferramentas de conversão de voz em texto e compartilhou experiências de uso específicas com base em 4 cenários diferentes. Não há recomendação pura e há erros e equívocos no processo.

Além de processar a voz de outras pessoas, também podemos usar essas ferramentas para registrar ideias, melhorar a eficiência e até abrir a porta para um novo mundo em cenários antes inesperados.

Se você acha que existem produtos úteis, compartilhe-os na área de comentários!

Peças inspiradoras para capturar sua imaginação

—— Shuannian Shell, notas de voz

Embora receber fala deixe as pessoas irritadas, a saída da fala é mais rápida do que a digitação. Em outras palavras, a voz é uma forma menos demorada de capturar pensamentos fugazes.

Mas há um problema aqui. As informações gravadas na voz são grosseiras, pouco intuitivas e inconvenientes de recuperar. Depois de terminar de falar, ainda temos que resolver o problema.

O aplicativo "Shing Nian Shell" (atualmente disponível apenas na versão iOS) leva em consideração os pontos problemáticos que existem há muito tempo.

▲ Especialmente projetada, a tela de abertura homenageia a Millennium Falcon em “Star Wars”

Você não precisa se preocupar com pausas, coloquialismos ou confusão lógica, apenas diga o que pensa diretamente. A IA pode organizar automaticamente o conteúdo para você e adicionar tags para fácil gerenciamento e pesquisa.

Depois de gerar o texto, você também pode usar palavras de prompt predefinidas para reescrever o conteúdo em vários estilos, como itens de tarefas e redação Xiaohongshu com um clique, ou conversar com IA para melhorar suas ideias.

Ditei a rotina diária de trabalho do editor e pedi para organizá-la em tarefas. Quando falei, falei sobre tudo o que me veio à mente, mas a IA pode organizar de acordo com o cronograma.

Quando produzi algumas resenhas de romances e filmes de uma maneira mais casual e comparei as gravações, descobri que a IA me ajudou a omitir algumas partículas modais, como "ah" e "um", e o "então" sem sentido também será usado .A eliminação significa que após uma palavra errada ser dita novamente, a versão correta será mantida.

Depois que a IA terminar o trabalho de limpeza, poderemos conversar novamente com ela. Depois de ler isso, acho que é melhor nos comunicarmos com uma IA que saiba um pouco de tudo.

No entanto, pode haver erros nos direitos autorais da IA, que podem ser reorganizados pela IA ou ajustados manualmente após clicar na página.

As funções básicas não foram ignoradas. Shannian Shell retém gravações e texto ao mesmo tempo e pode exportar gravações, tornando mais conveniente para nós corrigir erros.

É um tanto lamentável que os "pontos" da experiência gratuita do usuário sejam limitados e a gravação não possa exceder 1 minuto. Você tem que pagar (19 yuans por mês, 149 yuans por ano, 198 yuans por toda a vida) para continuar a usar o. Função AI sem limitar o tempo de gravação.

Voicenotes, um aplicativo de notas de voz estrangeiro, tem posicionamento e funções semelhantes às de Shannian Beike: retenção de gravações, adição de tags, correção manual de erros de transcrição, estilo de reescrita de IA e comunicação de ideias com IA, mas o design da interface é mais minimalista.

▲ "Museu Exclusivo do Elefante do Homem Rico" é na verdade "Madame Tussauds"

Voicenotes está disponível na China. O idioma do aplicativo é o inglês. Ele suporta a alteração do idioma de entrada e transliteração para chinês simplificado nas configurações.

Da mesma forma, o Voicenotes requer uma assinatura (68 yuans por mês ou 328 yuans vitalícios) para obter gravações de mais de 1 minuto e usar modelos grandes e melhores, como GPT-4o e Claude Opus.

Uma secretária vitalícia que dá instruções em uma frase

——Miley

Além de brainstorming e assuntos de trabalho, também existem cenários diários, mais leves e de uma frase em nossas vidas. Neste momento, você pode experimentar Miley AI, uma memória pessoal que se concentra em IA de "gravação + inteligência", atualmente disponível apenas. no iOS.

É muito adequado para anotar o que você comeu, quanto gastou, qualquer inspiração repentina ou o que você precisa fazer a seguir para manter o dia do NPC humano em ordem quando digitar for inconveniente.

O mais interessante é que Miley consegue analisar de forma inteligente vários tipos de assuntos com base no conteúdo que você insere.

Quando você menciona coisas felizes, a IA pode reconhecer suas emoções e marcá-las com expressões correspondentes. Você me diz quanto gastou no almoço e a IA controlará isso para você. Se você tem medo de perder a hora de pedir comida, a IA pode definir um lembrete em banner.

Mesmo se você quiser definir uma pequena meta diária de exercícios, poderá autorizar os dados de saúde da Apple a monitorar se ela é concluída todos os dias. Por exemplo, se você disser à IA para caminhar 2.000 passos todos os dias e ao citywalk para atingir 17.800 passos nos finais de semana, este item poderá ser verificado.

Apenas conversando casualmente, temos um livro-razão, check-in esportivo, lembretes…

Este é o benefício da IA. Não leva tanto tempo para resolver o conteúdo fragmentado como antes. Mesmo pessoas preguiçosas como eu, que não gostam de fazer planos, estão dispostas a tentar. um mini diário é formado e as conquistas serão feitas no coração.

No entanto, para usuários gratuitos, a cota de reconhecimento de fala e análise do agente é limitada, especialmente a análise do agente, que é fácil de chegar ao topo. Neste momento, é necessário “poder do dinheiro”, que é de 28 yuans por mês ou 188 yuans por mês. ano para assinatura.

▲ A palavra "reunião de seleção de tópico", a IA identifica se está certo ou errado

O que afeta ainda mais a experiência do usuário é que a precisão do reconhecimento de fala não é alta o suficiente, embora suporte modificações, mas afetará a intenção original de nosso uso – a IA deve evitar problemas, e não torná-los problemáticos.

Ferramentas criativas que mudam hábitos de produção

——Nota de Mo Wen

Quando se trata de criação, temos essa cena na cabeça: sentar na frente do computador, digitando no teclado, e os olhos quase colados na tela…

Uma voz mais casual e realista pode ser usada em criações mais longas? Se você quer saber se consegue falar de forma coerente, Mo Wen Notes é um bom lugar para começar.

Mowen Notes é um miniaplicativo WeChat. Sua função de voz AI suporta gravação de até 10 minutos por nota.

▲ Pressione e segure o sinal "+" na parte inferior para ativar a função de voz

Um dos designs é muito interessante. O Mowen Notes suporta saída em tempo real. Você pode ver o texto transcrito enquanto fala, em vez de apenas ver o tempo de gravação.

Mas esta função também pode ser um item de interferência que atrapalha nossa produção. Embora se corrija constantemente, a precisão do texto transcrito precisa ser melhorada.

Após a conclusão da saída, pressione o botão Parar e a IA irá polir o texto, incluindo segmentá-lo, corrigir erros de digitação, remover palavras que se repetem por causa de bobagens, etc. No entanto, a IA não pode corrigir todos os erros e também podemos modificá-lo manualmente mais tarde.

Por fim, compilamos uma nota que retém a voz, que pode ser visível apenas para nós mesmos ou publicamente.

Mowen Notes se posiciona como uma “ferramenta de criação”. Ao abrir o miniprograma, a primeira coisa que aparece é o seu slogan: Gravação é criação.

Normalmente, não sinto nada de errado ao olhar para a tela do computador, mas falar com um telefone celular por 10 minutos ainda é um grande desafio. Não só sinto a boca seca, mas também me sinto impotente depois de procurar por muito tempo e. não tendo nada a dizer.

Pequenos programas que proporcionam uma experiência leve podem realmente tornar o pensamento um hábito.

Assistente de eficiência para processamento pesado de voz

——Feishu Miaoji, audição iFlytek, audição Tongyi e iluminação

A maioria dos cenários de voz acima não são requisitos obrigatórios e podem ser vivenciados com uma atitude lúdica.

Quando preciso usar a voz no trabalho, Feishu Miaoji é minha primeira escolha. No mínimo, acostume-se, “Equipes avançadas, usem Feishu primeiro”, a conta corporativa é muito boa.

Por dezenas de minutos ou mesmo horas de coletivas de imprensa e entrevistas off-line, eu pegava meu celular e usava “Feishu Miaoji” no aplicativo Feishu para gravar o áudio, depois processava o áudio na página da web do Feishu e exportava-o com carimbos de data e hora . registros escritos.

Desta forma, caso haja algum problema com a gravação do texto, você poderá localizar com precisão a posição correspondente do áudio e corrigi-la enquanto ouve.

Feishu Miaoji também suporta o upload de arquivos de áudio e vídeo locais. Se a conexão com a Internet não for boa, você pode usar a ferramenta de gravação que vem com seu telefone celular para gravar e deixar que Feishu Miaoji processe. Quanto mais necessidades básicas forem atendidas, mais tranquila será a experiência do usuário.

Antes do Feishu, eu costumava usar o iFlytek. O Feishu também tem funções como importação de áudio, distinção de alto-falantes, reprodução em velocidade dupla e pesquisa de palavras-chave.

No entanto, embora a gravação do iFlytek seja gratuita, o serviço principal é cobrado: para converter áudio em texto e exportá-lo, você precisa comprar um pacote de transcrição de gravação (assinatura mensal contínua de 18 yuans) ou pacote de aproveitamento (assinatura mensal contínua de 79 yuans).

iFlytek agora tem bônus de IA e suporta pré-visualizações de capítulos e perguntas. Pedi ao chatbot “Xiao Di” que resumisse a entrevista de 40 minutos sobre “meditação”. Os pontos principais foram bastante organizados, o que foi útil para escrever artigos. Mas a função AI não é gratuita e está incluída no pacote de transcrição de gravação e no pacote Enjoy.

Se Feishu Miaoji for usado offline e baseado em telefones celulares, então Tongyi Tingwu completa o cenário online.

Tongyi Tingwu tem uma página da web, plug-in de navegador e miniaplicativo WeChat e está mais "pronto para usar". Você pode receber automaticamente 10 horas de transcrição todos os dias ao fazer login, o que é basicamente equivalente ao uso gratuito. .

O Tongyi Listening também suporta a conversão de áudio e vídeo local em texto, o que pode distinguir os falantes e fornecer traduções, mas o que eu mais uso é a função de fala para texto em tempo real.

Na página web, compartilhe a aba com Tongyi Tingwu Quando realizarmos reuniões, assistirmos vídeos e acompanharmos coletivas de imprensa, teremos uma ferramenta que pode gravar e fornecer legendas em tempo real.

Se houver idiomas estrangeiros envolvidos, o Tongyi Listening também suporta legendas bilíngues em tempo real. Primeiro selecione o idioma do áudio e do vídeo, depois selecione o idioma da tradução e, em seguida, ative a gravação em tempo real.

▲ A parte superior é a compreensão auditiva de Tongyi, a parte inferior é a tradução bilíngue baseada em legendas CC

No entanto, a velocidade de tradução do Tongyi Listening é atrasada e os resultados da tradução também mudam de acordo com as mudanças no texto original. Isso é normal. As frases em inglês são mais longas e têm muitos atributos. Mesmo que haja legendas, às vezes você ainda fica confuso.

▲ Tongyi Listening ajusta os resultados da tradução em tempo real

Portanto, na minha experiência real, para legendas em tempo real, o Tongyi Listening tem um desempenho melhor em conferências em chinês do que em conferências em inglês. Mandarim ligeiramente fora do padrão, como Lei Jun, é muito adequado para o Tongyi Listening.

Após o compartilhamento, o Tongyi Listening pode fornecer o texto original transcrito, resumir o conteúdo de forma inteligente e extrair pontos-chave, o que é muito adequado para a escrita de materiais.

iFLYTEK tem "Little Truth" e Tongyi Listening tem "Little Enlightenment". Você pode fazer perguntas relevantes com base nos registros de texto, clicar no carimbo de data / hora na resposta e também localizar o conteúdo original.

Mas o velho problema do reconhecimento de fala ainda ocorre: dizer o nome errado. Kimi tornou-se “km”, e a torre secreta tornou-se “torre de mel”. Cabe ao usuário distingui-la e corrigi-la.

Converta fala em texto, espere que a IA faça isso novamente

A fala para texto é uma necessidade até certo ponto.

Podemos usá-lo para transcrever mensagens de bate-papo, acompanhar entrevistas, reuniões e coletivas de imprensa e registrar brainstormings e fragmentos de vida.

Em essência, esses produtos emergentes de conversão de fala em texto que colocam mais ênfase na presença de IA estão, na verdade, concentrando-se no processamento de conteúdo mais inteligente e aprofundado, incluindo transliteração e polimento de texto, organização de conteúdo por tags e tipos, localização e expansão de conteúdo por meio de conversas. , etc.

Ao mesmo tempo, ainda há muito a desejar.

  • A precisão da conversão de voz em texto ainda precisa ser melhorada, e a retenção de gravações e o suporte à edição manual dificilmente compensam esse problema.
  • A função é criativa, mas não é perfeita o suficiente, e até vira uma distração que atrapalha a gravação.
  • O limite de cobrança é muito baixo. Depois de uma pequena quantidade de primeiros usuários, você precisa se inscrever, mas isso não pode ser atribuído aos desenvolvedores. Todo mundo quer ganhar dinheiro por conta própria.

Desenvolvedores independentes estão competindo na faixa de fala para texto, mas as perspectivas não são claras.

A Flash Capsule lançada pela Smartisan Mobile em 2017 é o “Luar Branco” no coração de muitas pessoas.

Pressione longamente o botão Home ou o botão do meio do controle remoto do fone de ouvido para iniciar a entrada de voz e gravar seus pensamentos fugazes. O texto e a gravação serão salvos e você poderá editar o texto novamente.

As "cápsulas" gravadas podem ser arrastadas para notas, inseridas na caixa de entrada do WeChat e transformadas em itens de tarefas…

Essas funções baseadas em sistema exigem menos etapas para serem invocadas e usadas e estão mais alinhadas com a nossa intuição. Somente não complicando os registros podemos realmente melhorar a eficiência.

Portanto, apesar da atual explosão de produtos, os fabricantes de sistemas operacionais ainda poderão ter a palavra final no futuro, com consolidação em nível de sistema e ataques de redução de dimensionalidade como o Apple Intelligence.

Já vi uma piada dizendo que o sistema operacional convencional na China não é iOS ou Android, mas WeChat.

Há alguma verdade nisso. Um colega meu que é podcaster está acostumado a gravar inspiração na estrada. Ele tentou muitas ferramentas de voz para texto e, finalmente, optou pela simplicidade. Ele enviou voz para o assistente de transferência de arquivos. em seguida, converti-o em texto.

Ingredientes de alta qualidade geralmente requerem apenas os métodos de cozimento mais simples. A onda de ideias em si é a mais valiosa. Às vezes, não precisamos de nenhuma função auxiliar de IA. Queremos apenas registrar as coisas rapidamente. A maneira mais comum de atingir o objetivo final com um clique é geralmente o método mais eficiente.

É tão forte quanto a geada do outono e pode evitar desastres malignos. E-mail comercial: [email protected]

# Bem-vindo a seguir a conta pública oficial do WeChat de Aifaner: Aifaner (WeChat ID: ifanr). Mais conteúdo interessante será fornecido a você o mais rápido possível.

Ai Faner | Link original · Ver comentários · Sina Weibo |