Essa nova atualização de voz da OpenAI faz a Siri e a Alexa parecerem que precisam voltar para a escola.

A OpenAI lançou três novos modelos de áudio em sua API Realtime, e eles representam um grande avanço para qualquer pessoa que desenvolva aplicativos controlados por voz. Os três modelos são GPT-Realtime-2, GPT-Realtime-Translate e GPT-Realtime-Whisper.

Juntos, eles levam a IA de voz além de simples respostas de vai e vem, rumo a algo capaz de entender você, tomar medidas e manter uma conversa real.

Se a demonstração deles servir de parâmetro, acabamos de presenciar a próxima evolução no funcionamento dos modelos de IA de voz.

Então, o que esses modelos realmente podem fazer?

O GPT-Realtime-2 é o grande destaque. Ele traz o raciocínio do nível do GPT-5 para interações de voz ao vivo, o que significa que pode lidar com solicitações mais complexas sem interromper a conversa.

Ele pode chamar várias ferramentas simultaneamente e até mesmo narrar o que está fazendo com frases como "verificando sua agenda" ou "deixe-me verificar isso". Também possui uma janela de contexto maior, de 128 mil tokens, o que significa sessões mais longas e coerentes. Os desenvolvedores podem até ajustar o esforço de raciocínio com base na complexidade da solicitação.

O GPT-Realtime-Translate é provavelmente o meu favorito. É o mais próximo que chegamos de ter o Tradutor Universal de Star Trek na vida real. Ele suporta tradução de voz em tempo real em mais de 70 idiomas de entrada e 13 idiomas de saída.

A melhor parte da demonstração foi que, mesmo quando uma nova pessoa entrou e falava um idioma diferente, o GPT-Realtime-Translate não teve problemas em traduzir ambos os falantes para o inglês em tempo real.

Por fim, temos o GPT-Realtime-Whisper. A maioria dos modelos de transcrição de fala espera que o falante termine de falar antes de fornecer a tradução completa. Este é um modelo de transcrição contínua que converte a fala em texto enquanto o falante fala. É útil para legendas ao vivo, anotações de reuniões e qualquer fluxo de trabalho baseado em voz onde esperar pela transcrição não é uma opção.

Qualquer pessoa pode usar esses novos modelos de IA de voz?

Atualmente, a OpenAI disponibilizou esses modelos para desenvolvedores. Mas os aplicativos que eles criarem afetarão a todos. Por exemplo, um desenvolvedor pode criar um aplicativo de tradução em tempo real, permitindo que os usuários conversem com pessoas em diferentes idiomas.

Muitas empresas já estão testando esses novos modelos. A Zillow está desenvolvendo um assistente de voz capaz de buscar imóveis e agendar visitas com um simples comando de voz. A Priceline pode verificar suas reservas de voos e hotéis, cancelá-las e reservar novas. O Vimeo está utilizando a tecnologia para transcrição em tempo real, e assim por diante.

Os preços começam em US$ 0,017 por minuto para o Whisper, US$ 0,034 por minuto para o Translate e US$ 32 por 1 milhão de tokens de entrada de áudio para o GPT-Realtime-2.