Agora mesmo, OpenAl lançou o kit de ferramentas do agente, internauta: Obrigado Manus AI
Agora mesmo, a OpenAI lançou uma série de novas ferramentas e APIs projetadas para construir Agentes de IA, ajudando os desenvolvedores a criar mais facilmente Agentes de IA (agentes inteligentes) que podem concluir tarefas automaticamente.
A OpenAI acredita que embora o raciocínio avançado, a interação multimodal e outros recursos de modelo lançados no ano passado tenham lançado as bases para o Agente, os desenvolvedores ainda encontrarão muitas dificuldades ao construir Agentes em nível de produção.
Para esse fim, os principais produtos lançados desta vez incluem uma nova API de respostas, três ferramentas integradas e um Agents SDK de código aberto.
A versão para economia de fluxo é a seguinte:
- API Responses: uma nova interface API que combina a simplicidade da API Chat Completions com o poder da ferramenta API Assistants
- Ferramenta de pesquisa na Web: uma ferramenta que permite que os modelos acessem a Internet para obter as informações mais recentes
- Ferramenta de pesquisa de arquivos: ferramenta aprimorada para recuperar informações relevantes de grandes quantidades de documentos
- Ferramenta de uso de computador: uma ferramenta de automação de operação de computador apoiada pelo modelo Computer-Using Agent (CUA), permitindo que a IA opere a interface do computador como um ser humano
- SDK de agentes: atualizado com base na estrutura Swarm, uma estrutura de código aberto que simplifica a orquestração do fluxo de trabalho de vários agentes
Especificamente, a API Responses combina a simplicidade da API Chat Completions (usada principalmente para gerar respostas de conversas) e os recursos de uso de ferramentas da API Assistants (que permite que a IA chame funções externas, como verificar informações e operar coisas), tornando-se uma nova base para a construção de aplicativos de Agente.
Em termos de ferramentas integradas, a ferramenta de pesquisa na web suporta os modelos GPT-4o e GPT-4o-mini para obter as informações mais recentes na web e fornecer referências claras. No teste de benchmark SimpleQA, as versões de visualização de pesquisa desses dois modelos alcançaram taxas de precisão impressionantes de 90% e 88%, respectivamente.
A ferramenta atualizada de pesquisa de arquivos é ainda mais poderosa, suportando vários formatos de arquivo, otimizando consultas, filtrando metadados e personalizando a classificação, permitindo que os desenvolvedores encontrem rapidamente informações importantes em montanhas de documentos.
A ferramenta de uso do computador é alimentada pelo mesmo modelo Computer-Using Agent (CUA) do Operator, que captura operações de mouse e teclado geradas pelo modelo, alcançando pontuações de 38,1%, 58,1% e 87% nos benchmarks OSWorld, WebArena e WebVoyager, respectivamente.
A OpenAI também lançou o Agents SDK de código aberto, projetado especificamente para simplificar a orquestração de fluxos de trabalho multiagentes.
Em comparação com a estrutura experimental Swarm lançada no ano passado, este novo SDK foi significativamente melhorado. Ele fornece integração LLM fácil de configurar com ferramentas integradas, controle de transferência inteligente entre agentes, verificações de segurança configuráveis, rastreamento visual e outras funções. É adequado para automação de suporte ao cliente, pesquisa em várias etapas, geração de conteúdo e outros cenários de aplicação.
Alguns dos primeiros usuários de testes já estão fazendo progressos reais com essas novas ferramentas.
Nos casos listados no site oficial, a Hebbia usa ferramentas de pesquisa na Web para ajudar gestores de ativos e profissionais jurídicos a extrair insights acionáveis de dados massivos;
Unify e Luminai usam ferramentas de computador para automatizar processos operacionais complexos, especialmente para sistemas tradicionais que não possuem APIs. A Box usa Agents SDK para construir e implantar rapidamente aplicativos de pesquisa de dados corporativos.
Após o lançamento do produto, os internautas também fizeram piadas na área de comentários do OpenAI, e alguns internautas até deixaram mensagens especiais para agradecer à Manus AI.
Durante a transmissão ao vivo à 1h de hoje, o apresentador também nos mostrou um case de aplicação do Agente “personal stylist” para demonstrar as capacidades de diversas novas ferramentas.
Por exemplo, eles primeiro usaram uma ferramenta de pesquisa de arquivos para examinar os dados de preferências de roupas dos usuários (como "Kevin"), e o sistema classificou facilmente os estilos de vestir dessas pessoas.
Em seguida, combinado com a ferramenta de pesquisa na Web, o sistema pode pesquisar lojas próximas relacionadas com base na localização do usuário ("Tóquio" é usada como a localização de Kevin na demonstração) e recomendar lojas Patagonia em Tóquio para Kevin.
Então, a Ferramenta de Uso do Computador entrou em cena e operou automaticamente a interface da web para comprar uma jaqueta preta da Patagonia para Kevin. Todo o processo foi tranquilo e contínuo – clique, arraste e solte e preencha as informações, como uma pessoa real controlando-as.
Por fim, também é demonstrada a função de handover entre agentes. Um Agente entrega facilmente a solicitação de devolução ao agente de atendimento ao cliente, que pode acionar funções como obtenção de senhas e envio de solicitações de reembolso para ajudar os usuários a concluir a devolução das jaquetas Patagonia.
Pode-se dizer que com a cooperação tácita de novas ferramentas e APIs, esses Agentes de IA podem não apenas entender as preferências do usuário, obter informações em tempo real e realizar operações complexas, mas também alternar com flexibilidade entre diferentes tarefas, cobrindo perfeitamente todo o processo, desde a recomendação até a compra e a devolução.
Quanto ao arranjo da API existente, a OpenAI afirmou que continuará a oferecer suporte total à API Chat Completions para fornecer novos modelos e funções para desenvolvedores que não precisam de ferramentas integradas.
Com base no feedback da versão beta da API Assistants, eles integraram melhorias importantes na API Responses. Eles planejam desativar oficialmente a API Assistants em meados de 2026, após o alinhamento das funções, e fornecerão um guia de migração detalhado.
O preço das novas ferramentas também foi lançado recentemente. A pesquisa na Web custa US$ 30 para pesquisa GPT-4o e US$ 25 para pesquisa GPT-4o-mini por 1.000 consultas;
A OpenAI afirmou que à medida que os recursos do modelo se tornam mais semelhantes aos dos agentes, eles continuarão a aprofundar a integração entre APIs e a fornecer novas ferramentas para ajudar a implantar, avaliar e otimizar os agentes em ambientes de produção.
O CEO da Nvidia, Jensen Huang, disse uma vez que, no futuro, o departamento de TI de cada empresa será transformado no “departamento de RH” do AI Agent.
Do gerenciamento de pessoas ao gerenciamento de IA, os Agentes em breve se tornarão uma parte importante da força de trabalho e melhorarão a produtividade em vários setores. O conjunto de ferramentas lançado desta vez é apenas um passo importante para ajudar desenvolvedores e empresas a construir, implantar e expandir Agentes de IA confiáveis e eficientes.
Anteriormente, os desenvolvedores precisavam combinar diferentes APIs e escrever lógicas de coordenação complexas para construir agentes de IA, mas novas ferramentas simplificam bastante esse processo.
A API Responses integra múltiplas funções em uma interface simples, enquanto as ferramentas integradas fornecem à IA a capacidade de “perceber” e “agir”, e o Agents SDK fornece uma estrutura padrão para coordenar vários agentes.
Ao reduzir o limite técnico, mais empresas podem construir e implementar rapidamente Agentes de IA. Este pode ser o verdadeiro significado do que a OpenAI chama de “primeiro ano dos Agentes” – permitindo que a IA não se limite mais a caixas de chat, mas possa ser integrada em fluxos de trabalho reais e tornar-se o seu “assistente digital” ou mesmo “colega digital”.
Em anexo estão as perguntas e respostas da AMA:
P: Qual sistema operacional é melhor para uso em computador: Linux, Mac ou Windows? Uma interface gráfica (IU), terminal ou outros métodos são melhores? Quais aplicativos têm melhor desempenho no seu computador ou isso não importa?
R: O modelo CUA foi treinado principalmente para tarefas da Web, mas os primeiros usuários descobriram que ele também funciona surpreendentemente bem em aplicativos de desktop. Ainda é cedo e ainda temos muito que melhorar!
P: Você fornecerá o SDK TypeScript?
R: Sim! Lançaremos o SDK TypeScript em breve, fique ligado!
P: Veremos o1 pro na API no futuro?
R: Sim, planejamos lançá-lo na API de respostas em breve!
P: Precisamos gerenciar o ambiente Docker para usar as funções do computador?
R: Se desejar, você mesmo pode gerenciar o ambiente Docker, mas também pode usar um serviço de nuvem como @browserbasehq ou @scrapybara.
P: Quando o Operator estará disponível na API?
R: A partir de hoje, você pode usar a mesma funcionalidade do Operador na API! Implantamos o modelo CUA que orienta o Operador na nova API de Respostas.
P: Você considerará fornecer máquinas virtuais (VMs) integradas para dar suporte ao "uso do computador" ou trabalhar com parceiros para reduzir a necessidade de criar um ambiente?
R: Ainda não há planos para isso, mas você pode conferir o aplicativo de exemplo CUA, que contém alguns ambientes de exemplo, incluindo @scrapybara e @browserbasehq, para hospedagem remota.
P: Como garantir a privacidade pessoal durante todo o processo de transferência do agente? Existe alguma maneira de melhorar a proteção da privacidade dos usuários ao interagir com o Agente?
R: Temos vários mecanismos de proteção de privacidade. O Agents SDK oferece suporte a medidas de segurança definidas pelo desenvolvedor (proteções) para validação de entrada/saída. Além disso, você pode usar input_filter para limitar o contexto da mensagem transmitida durante a transferência.
# Bem-vindo a seguir a conta pública oficial do WeChat do aifaner: aifaner (WeChat ID: ifanr). Mais conteúdo interessante será fornecido a você o mais rápido possível.