ChatGPT já escuta e fala. Em breve poderá ver também

novembro 20, 2024 gurinho

O modo de voz avançado do ChatGPT, que permite aos usuários conversar com o chatbot em tempo real, poderá em breve ganhar o dom da visão, de acordo com o código descoberto na versão beta mais recente da plataforma. Embora a OpenAI ainda não tenha confirmado o lançamento específico do novo recurso, o código na versão beta do ChatGPT v1.2024.317 detectado pelo Android Authority sugere que a chamada “câmera ao vivo” pode ser lançada em breve.

A OpenAI mostrou pela primeira vez os recursos de visão do Advanced Voice Mode para ChatGPT em maio, quando o recurso foi lançado pela primeira vez em alfa. Durante uma demonstração postada na época, o sistema foi capaz de identificar que estava olhando para um cachorro através da câmera do telefone, identificar o cachorro com base em interações anteriores, reconhecer a bola do cachorro e associar a relação do cachorro com a bola (ou seja, jogando buscar).

O recurso também foi um sucesso imediato entre os testadores alfa. O usuário do X, Manuel Sainsily, empregou-o com grande efeito ao responder perguntas verbais sobre seu novo gatinho com base no vídeo da câmera.

Experimentando o novo modo de voz avançado do #ChatGPT que acaba de ser lançado em Alpha. É como conversar pessoalmente com um amigo super conhecedor, o que neste caso foi muito útil – nos tranquilizando com nosso novo gatinho. Ele pode responder perguntas em tempo real e também usar a câmera como entrada! pic.twitter.com/Xx0HCAc4To
— Manuel Saisily (@ManuVision) 30 de julho de 2024

O Advanced Voice Mode foi posteriormente lançado em beta para assinantes Plus e Enterprise em setembro , embora sem seus recursos visuais adicionais. Claro, isso não impediu os usuários de testar os limites vocais do recurso. Advanced Voice, “oferece conversas mais naturais e em tempo real, permite interromper a qualquer momento e detecta e responde às suas emoções”, segundo a empresa .

A adição de olhos digitais certamente diferenciaria o Modo de Voz Avançado dos principais concorrentes da OpenAI, Google e Meta, que nos últimos meses introduziram seus próprios recursos de conversação.

O Gemini Livepode falar mais de 40 idiomas , mas não pode ver o mundo ao seu redor (pelo menos até o Projeto Astra decolar ) – nem as Interações de Voz Natural da Meta, que estreou no evento Connect 2024 em setembro, usar entradas da câmera.

A OpenAI também anunciou hoje que o modo Advanced Voice agora também está disponível para contas pagas do ChatGPT Plus no desktop. Ele esteve disponível exclusivamente para dispositivos móveis por um tempo, mas agora também pode ser acessado diretamente em seu laptop ou PC.