Finalmente, consigo ouvir o GPT-5 falando comigo em linguagem humana.

Gostaria de saber se alguém já passou por isso.
Sempre que me deparo com uma emergência e ligo para o serviço de atendimento ao cliente automatizado de diversas empresas, a voz do outro lado da linha é sempre a mesma, clara, porém sem emoção: "Pressione 1 para atendimento de consultas, pressione 0 para atendimento manual…" Em seguida, toca uma musiquinha interminável e, por fim, aquele irritante "Desculpe, não entendi, por favor, repita."

Mas agora mesmo, a OpenAI lançou seu conjunto de APIs em tempo real com modelos de fala em tempo real. Depois de assistir à demonstração, parece que eles realmente querem que as máquinas falem "linguagem humana" e realizem "tarefas humanas".

A versão que economiza dados é a seguinte:
- GPT-Realtime-2: Desenvolvimento de agentes de voz que podem ser usados em ambientes de produção. Eles são capazes de raciocínio mais profundo, executar ações, lidar com interrupções e manter conversas fluindo naturalmente.
- GPT-Realtime-Translate: Suporta tradução em tempo real de mais de 70 idiomas de entrada e 13 idiomas de saída, eliminando barreiras linguísticas e ajudando as pessoas a se comunicarem de forma mais natural.
- GPT-Realtime-Whisper: Transcrição em tempo real de fluxos de áudio, gerando legendas e anotações.
Finalmente, a IA aprendeu a dizer "espere um momento".
Se o antropomorfismo é a fachada, então a capacidade de raciocínio subjacente é a substância.
O principal concorrente desta vez é, sem dúvida, o GPT-Realtime-2. Os resultados dos testes de desempenho mostram que o GPT-Realtime-2 supera seu antecessor em 15,2% no Big Bench Audio e em 13,8% no Audio MultiChallenge. A Zillow realizou internamente o teste adversário mais desafiador, e a taxa de sucesso saltou de 69% para 95%, uma melhoria de 26 pontos percentuais.

Antigamente, os assistentes de voz tinham um processo de raciocínio muito simples. Se você dissesse "toque uma música", eles tocavam a música; se você dissesse "apague as luzes", eles apagavam as luzes. Se você desse três tarefas de uma vez e depois mudasse de ideia duas vezes, eles provavelmente desistiriam na hora.
Mas o GPT-Realtime-2 é diferente porque a OpenAI incorporou diretamente as capacidades de raciocínio do GPT-5 nesse modelo de fala, dando-me a impressão de que o GPT-5 "fala a língua humana".
Para dar um exemplo bem prático, imagine que você está dirigindo e diz casualmente para o seu carro: "Encontre uma casa perto da estação de metrô, o aluguel não deve ser muito caro, evite as ruas principais e, se possível, combine com um corretor de imóveis para me mostrar a casa no sábado à tarde."

▲ A internauta @clairevo demonstrou como concluir um processo completo de redação de um PRD (Documento de Requisitos do Produto) usando o GPT-Realtime-2: primeiro, os requisitos são verbalizados, a IA gera o documento e, em seguida, é necessário usar a voz para solicitar alterações de formatação, e a IA atualiza o documento de acordo. Todo o processo é conduzido por diálogo, sem tocar no teclado.
https://x.com/clairevo/status/2052477386059653366
Não se trata mais de um simples reconhecimento de fala; o sistema precisa entender suas diversas restrições, filtrar locais em um mapa, comparar preços e, por fim, adequar-se à agenda do agente. Para lidar bem com essa tarefa complexa, a OpenAI o equipou com dois conjuntos de habilidades muito especiais.
A primeira habilidade se chama "Chamadas de ferramentas paralelas". Agora ela pode operar de forma multithread, acessando simultaneamente diversas ferramentas em sua mente — mapas, calendários e aplicativos de aluguel — enquanto conversa com você. Você pode ouvi-la murmurando ao telefone: "Verificando sua agenda…" "Buscando imóveis próximos…" É como ligar para um assistente virtual, e você pode ouvi-lo digitando no teclado, procurando informações.

▲ O usuário Ben Badejo usou o OpenClaw, uma IA controlada por voz, para controlar seu navegador por meio de uma conversa direta com o GPT-Realtime-2, primeiro abrindo o Google e depois redirecionando para o site do Wall Street Journal. Ao longo do processo, a IA não apenas realizou as operações, mas também explicou proativamente como poderia ajudar, mesmo sem as permissões do navegador.
https://x.com/BenjaminBadejo/status/2052511264476147762
Isso nos leva à segunda atualização, que eu considero a mais humana – “Preâmbulos”.
Quando as pessoas estão pensando ou lidando com assuntos complexos, elas não conseguem responder instantaneamente. Normalmente dizemos: "Hum, deixe-me pensar um pouco" ou "Espere um momento, deixe-me encontrar". Agora, a IA também aprendeu esse truque. Quando está buscando dados freneticamente em segundo plano, ela dirá de forma muito natural: "Ok, sem problemas, me dê um tempinho para verificar".
Esse design aparentemente "óbvio" na verdade alivia ao máximo nossa ansiedade durante a espera.
Curiosamente, os desenvolvedores agora podem controlar a intensidade da inferência (de mínima a extremamente alta: mínima, baixa, média, alta, extra alta). Se você perguntar se vai chover hoje, ele responderá o mais rápido possível; se você fizer uma pergunta complexa de negócios, como "Você pode analisar se abrir uma cafeteria será lucrativo?", ele usará seu poder computacional máximo para analisá-la lentamente para você.
É possível fazer interpretação simultânea a um custo extremamente baixo?
Além do GPT-Realtime-2, há outro recurso de apoio muito interessante: o GPT-Realtime-Translate (tradução em tempo real).
A maioria dos softwares de tradução que usamos diariamente é "baseada em turnos". Você pressiona e segura para falar, solta, espera alguns segundos e a máquina lê as palavras com clareza. É ótimo para pedir informações durante uma viagem, mas se você realmente o usa para uma conferência multinacional, os silêncios constrangedores e os olhares perdidos são tão embaraçosos que você poderia cavar um apartamento de três quartos com os dedos dos pés.
Mas a principal característica deste novo modelo é a "tradução em tempo real".
Ele suporta entrada em mais de 70 idiomas, permitindo que você fale fluentemente de um lado e receba uma tradução quase simultaneamente do outro. Ainda mais impressionante é sua tolerância a diversos sotaques. Uma empresa indiana chamada BolnaAI o testou com sotaques hindi carregados e descobriu que o modelo não apenas não se confundiu, como sua precisão também foi significativamente maior do que a de outros produtos similares.

▲ O desenvolvedor Peter Gostev criou uma extensão para o Chrome que se integra diretamente aos vídeos do YouTube, traduzindo o conteúdo para vários idiomas em tempo real durante a reprodução. A tradução para chinês é bastante boa, mas ainda apresenta um leve sotaque.
https://x.com/petergostev/status/2052443418526134761
No futuro, quando você assistir a tutoriais online de especialistas estrangeiros sem legendas ou ouvir coletivas de imprensa internacionais sem interpretação simultânea, basta ativar este plugin e ele transmitirá suavemente o seu idioma nativo aos seus ouvidos, seguindo o ritmo do vídeo original.
Além disso, com a recém-lançada função GPT-Realtime-Whisper (conversão de fala em texto com latência ultrabaixa), em reuniões futuras, enquanto o líder estiver falando, sua tela já estará convertendo o gráfico de pizza em um resumo da reunião claramente estruturado e em tempo real.
Em relação aos preços, o GPT-Realtime-Whisper custa US$ 0,017 por minuto, o GPT-Realtime-Translate custa US$ 0,034 por minuto e o GPT-Realtime-2 é cobrado por token, com entrada de áudio a US$ 32 por milhão de tokens e saída de áudio a US$ 64 por milhão de tokens.
Ao analisarmos essas funções em conjunto, percebemos que a lógica do software está passando por uma mudança fundamental.
Antes, tínhamos que aprender a digitar código, a navegar em menus complexos e a traduzir nossas necessidades em palavras-chave que a IA pudesse entender. Mas a tendência atual é…
A IA está começando a se adaptar a nós.

A voz está se transformando de um recurso de acessibilidade desajeitado na interface mais natural para controlarmos o mundo digital. Afinal, falar é o instinto menos aprendido pelos seres humanos.
Ao final do desenvolvimento tecnológico, há uma tendência a ocultar as complexidades e deixar os aspectos mais simples e naturais para as pessoas comuns. Talvez num futuro próximo, você só precise levar fones de ouvido quando sair de casa, e poderá lidar com todas as suas tarefas de trabalho e da vida apenas com a sua voz.
No entanto, também é algo que nos faz refletir. Depois de nos acostumarmos com uma IA que é sempre emocionalmente estável e capaz até de entender todas as nuances da comunicação, ainda conseguiremos tolerar os mal-entendidos e a comunicação ineficiente entre humanos no mundo real?
Aqui está o endereço do blog:
https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api/
#Siga a conta oficial do iFanr no WeChat: iFanr (ID do WeChat: ifanr), onde você encontrará conteúdo ainda mais interessante o mais breve possível.

