A OpenAI acaba de lançar a versão ChatGPT do Manus! Ultraman: Sinta o momento AGI

Nos últimos seis meses, o Agent tem sido um dos conceitos mais mencionados no setor de IA.

Quase todos os fabricantes estão falando sobre o Agent. Não faltam conceitos e demonstrações, mas para realmente alcançar a implementação em nível de produto, sempre falta um sistema de execução completo — um que consiga entender objetivos complexos, utilizar múltiplas ferramentas para conectar processos de tarefas e suportar interrupção, modificação e recuperação de tarefas a qualquer momento, adaptando-se verdadeiramente ao fluxo de trabalho do usuário.

Agora mesmo, a OpenAI lançou oficialmente a função ChatGPT Agent.

Ao integrar a ontologia Operator + Deep Research + ChatGPT, os usuários só precisam descrever a tarefa, e o ChatGPT Agent pode determinar independentemente as ferramentas necessárias, acessar automaticamente páginas da web, extrair informações, executar código, gerar slides ou tabelas, etc., e pode exibir etapas em tempo real, aceitar interrupções e modificar instruções durante a execução.

Após a conferência, o CEO da OpenAI, Sam Altman, escreveu nas redes sociais:

Observar o ChatGPT Agent usar computadores para concluir tarefas complexas foi um verdadeiro momento de "sensação de IA" para mim; havia algo muito especial em ver um computador pensar, planejar e executar.

Os destaques são os seguintes:

  • O ChatGPT Agent combina Operator, Deep Research e ontologia ChatGPT em uma só para criar um sistema de agente inteligente unificado.
  • Navegador gráfico/de texto integrado, terminal e chamador de API e outras ferramentas, suporte ao uso de celular e envio automático de resultados após a conclusão da tarefa;
  • Pode se conectar a aplicativos de terceiros, como Gmail e GitHub, profundamente incorporados ao fluxo de trabalho real do usuário;
  • Liderando em vários testes de benchmark, seu desempenho geral está entre os melhores do setor;
  • Usuários Pro têm uma cota mensal de 400 chamadas, enquanto usuários pagos têm uma cota mensal de 40 chamadas. A cota pode ser expandida conforme necessário.

O agente ChatGPT foi lançado oficialmente, ele pode comprar e escrever PPT, seu navegador será controlado pela IA

A partir de hoje, você pode ativar esse recurso em qualquer conversa selecionando "Modo Agente" no menu suspenso "Ferramentas" no canto inferior esquerdo da interface de bate-papo.

Basta descrever a tarefa que você deseja concluir, e o ChatGPT navegará pelo site de forma inteligente, filtrará os resultados, solicitará com segurança que você faça login quando necessário, executará o código, realizará análises e até mesmo gerará slides e planilhas editáveis resumindo os resultados da tarefa.

Todo o processo de execução é visual – as etapas da operação serão exibidas na tela em tempo real, e os usuários podem interromper, modificar instruções ou até mesmo "assumir o controle do navegador" manualmente para continuar a operação a qualquer momento, para garantir que a tarefa sempre atenda aos seus objetivos e necessidades.

Em uma demonstração realizada nesta manhã, a OpenAI demonstrou os recursos de aplicação do ChatGPT Agent em cenários do mundo real.

Por exemplo, preparar-se para um casamento sempre foi um problema difícil. Agora, basta enviar uma solicitação e o ChatGPT Agent criará rapidamente um ambiente virtual, determinará de forma autônoma se deve chamar um navegador, um analisador de texto ou um terminal e começará a recuperar a data do casamento, verificar a previsão do tempo no local, recomendar trajes e selecionar hotéis. Durante esse processo, o modelo pode interagir com pesquisadores da OpenAI e solicitar a confirmação dos requisitos nos nós apropriados.

Mais importante, os usuários podem interromper a tarefa a qualquer momento.

Por exemplo, quando o agente estava recomendando um terno, um pesquisador da OpenAI inseriu temporariamente uma solicitação: "Ajude-me a encontrar um par de sapatos sociais pretos tamanho 9,5". O modelo imediatamente pausou a tarefa atual e passou a processar a nova solicitação.

Da mesma forma, o agente solicitará proativamente mais informações quando julgar necessário, garantindo que a tarefa esteja sempre alinhada aos seus objetivos. Se uma tarefa demorar mais do que o esperado ou travar, você pode optar por pausá-la, solicitar um resumo do progresso ou simplesmente encerrá-la e obter os resultados parciais que já obteve.

“Esse mecanismo de conversação interrompível e multi-rodadas é um dos pontos-chave do treinamento do nosso modelo desta vez”, explicou o pesquisador da OpenAI.

Por trás dessa capacidade está a integração unificada de três sistemas principais pelo ChatGPT Agent: o Operator fornece recursos de interação com páginas da web, suportando rolagem automática, cliques e preenchimento de formulários; o Deep Research se destaca na integração e análise de informações; e a ontologia ChatGPT é responsável pela compreensão da linguagem natural e raciocínio inteligente.

O Agente ChatGPT é treinado para executar tarefas complexas por meio de aprendizado por reforço. No passado, os três apresentavam suas próprias deficiências: o primeiro era difícil de realizar análises aprofundadas e o segundo não conseguia operar páginas da web. O Agente integra as vantagens dos três em um só, complementado por ferramentas como navegadores, terminais e chamadores de API para formar um sistema de execução completo.

Os usuários não podem apenas iniciar o modo Agente no desktop, mas também no celular.

Após a conclusão da tarefa, a notificação de resultado será enviada automaticamente. Na segunda tarefa de demonstração, os pesquisadores da OpenAI carregaram padrões de adesivos do mascote da equipe, Bernie Doodle, no aplicativo ChatGPT. O agente chamou automaticamente a API de geração de imagens para criar o estilo do adesivo, acessou a plataforma de e-commerce pelo navegador para comparar preços, selecionar o estilo e adicionar ao carrinho de compras e, por fim, organizou os detalhes do pedido dos adesivos personalizados.

Claro que, para garantir que o processo seja seguro, flexível, claro e controlável, quando se tratar de pagamento envolvendo valores, o usuário apenas utilizará manualmente o navegador para realizá-lo.

Por meio de conectores, os usuários também podem conectar aplicativos cotidianos, como Gmail e GitHub, ao ChatGPT, permitindo que o modelo leia conteúdo contextual, como e-mails, calendários ou repositórios de código, e execute tarefas como resumir o conteúdo da caixa de correio de hoje ou encontrar horário livre para reunião na próxima semana.

Um cenário de aplicação mais típico é que os pesquisadores da OpenAI podem permitir que o Agente ChatGPT resuma seu desempenho em vários benchmarks e o transforme em uma apresentação de slides. Após receber o comando, o Agente chamará o conector do Google Drive para ler o arquivo de dados, escreverá código no terminal para desenhar gráficos e gerará um PPT completo.

Esse tipo de capacidade de automação é um reflexo da profunda integração do Agent no fluxo de trabalho.

No entanto, pode-se observar que o PPT gerado pelo ChatGPT Agent é, em geral, mediano em termos de estética de design. Além disso, embora planilhas possam ser carregadas para edição no ChatGPT ou usadas como modelos, o PPT gerado atualmente não suporta modificações secundárias.

Vale ressaltar que o OpenAI não permite que o agente abra arquivos PPT ou Excel como um humano e insira caixas de texto e fórmulas com um clique, mas gera código diretamente para criar documentos. A vantagem dessa abordagem é que ela pode aproveitar as vantagens naturais do modelo na escrita de código, evitar ineficiências ou erros causados por operações de clique simuladas e reduzir o consumo de recursos computacionais.

O Information relatou que se o ChatGPT quiser editar diretamente arquivos PPT ou Excel, ele precisa iniciar uma "máquina virtual" (ou seja, um ambiente de computador virtual executado pelo ChatGPT), o que consumirá mais recursos de computação.

Gerar código diretamente é mais leve e eficiente. Embora tenha grande potencial, é difícil que esse recurso tenha impacto no Microsoft Office ou no Google Workspace a curto prazo.

Para o recurso ChatGPT Agent, os usuários Pro terão acesso hoje; os usuários Plus e Team poderão acessá-lo nos próximos dias; as versões Enterprise e Education estarão disponíveis nas próximas semanas.

Usuários Pro podem usar 400 mensagens por mês, e outros usuários pagos podem usar 40 mensagens por mês e podem comprar mais por meio do plano de crédito flexível.

Os registros de "pontuação contínua" são atualizados em todos os níveis, e o campo de batalha do Agente recebe o oponente mais forte

A melhoria dos recursos do ChatGPT Agent também se reflete no link "pontuação de execução".

No Exame Último da Humanidade (HLE), um benchmark para avaliar a capacidade da IA de resolver problemas interdisciplinares de nível especializado, o modelo ChatGPT com um agente estabeleceu um novo recorde com uma pontuação de 41,6 no teste pass@1. Após ativar a estratégia de execução paralela, a pontuação foi ainda melhorada para 44,4.

No FrontierMath, que atualmente é considerado o benchmark matemático mais desafiador, enfrentando questões extremamente difíceis e nunca antes publicadas, o ChatGPT Agent atingiu uma taxa de precisão de 27,4%, além de ter recursos de execução de código de terminal, o que é muito maior do que os modelos anteriores.

Em testes de benchmark internos dessa tarefa de trabalho de conhecimento complexa e de alto valor, o ChatGPT Agent atingiu uma qualidade de saída que igualou ou excedeu os níveis humanos em cerca de metade das tarefas e teve um desempenho significativamente melhor do que os modelos o3 e o4-mini.

Os agentes do ChatGPT também superaram significativamente os modelos Deep Research e o3 em um benchmark interno de tarefas de modelagem de banco de investimento. Cada tarefa é avaliada com base em centenas de critérios de pontuação, como correção e formatação da fórmula.

Além disso, no benchmark BrowseComp, que avalia publicamente as capacidades de busca de informações dos modelos, o Agent estabeleceu um novo recorde com uma taxa de precisão de 68,9%, 17,4 pontos percentuais acima do Deep Research. Na avaliação do WebArena, sua capacidade de execução de tarefas em páginas da web também é superior à do modelo CUA baseado em o3.

Da perspectiva da plataforma, a interface subjacente dos recursos do Agente é o navegador.

Em uma entrevista recente, Aravind Srinivas, CEO da Perplexity AI, afirmou que o navegador será o "aplicativo matador" para a IA. Em sua opinião, o navegador naturalmente reúne todas as condições para que a IA realmente "se mova".

Ao contrário dos chatbots tradicionais, a forma ideal de um Agente de IA não é gerar texto em uma caixa de diálogo, mas sim realizar ações práticas – desde acessar páginas da web, extrair informações, preencher formulários até realizar operações multiplataforma. Para tudo isso, o navegador possui as permissões de operação e os recursos de aquisição de contexto necessários.

O navegador pode ler páginas diretamente, simular cliques e executar tarefas automaticamente com quase nenhuma autorização adicional.

Nesse processo, usuários e IA coexistem no mesmo espaço interativo: a IA pode executar tarefas automaticamente, e os usuários podem interromper ou assumir o controle a qualquer momento para evitar a incerteza trazida pelas operações de caixa-preta. Essa controlabilidade e transparência são capacidades que muitos protocolos contextuais atuais ainda têm dificuldade em alcançar.

Agora, com o recurso ChatGPT Agent oficialmente lançado, todos os fabricantes que afirmam ser agentes podem ter que reexaminar seus caminhos de produtos.

Quando o ChatGPT deixou de ser uma ferramenta de interação linguística e passou a ser um sistema de execução com recursos de colaboração, agendamento e execução de tarefas, e começou a se conectar aos fluxos de trabalho reais dos usuários, o limite de usabilidade do Agent aumentou substancialmente naquele momento.

#Bem-vindo a seguir a conta pública oficial do iFanr no WeChat: iFanr (ID do WeChat: ifanr), onde mais conteúdo interessante será apresentado a você o mais breve possível.

iFanr | Link original · Ver comentários · Sina Weibo