Agora mesmo, OpenAI lançou seu primeiro agente de IA! Ajudá-lo automaticamente a pedir comida e compras, transmissão ao vivo e acumulação, você precisa saber esses detalhes antes de usá-lo
Esta manhã, o CEO da OpenAI, Sam Altman, anunciou duas grandes novidades.
Uma é que os usuários do ChatGPT não apenas terão uma oportunidade de teste gratuito do o3-mini, mas os membros da assinatura paga Plus também desfrutarão de mais cota de uso.
A outra é a estreia oficial do tão aguardado primeiro produto de agente inteligente, a prévia da pesquisa do Operador. A boa notícia é que ele pode ajudá-lo a fazer compras on-line automaticamente, mas a má notícia é que pode ser mais fácil “rolar”.
O presidente da OpenAI, Greg Brockman, postou na plataforma X: "Operador – um agente que pode usar seu próprio navegador para realizar tarefas para você. 2025 será o ano do agente."
OpenAI permite que a IA aprenda a “usar computadores”? Este é o primeiro passo para AGI
Como o primeiro assistente de IA da OpenAI que realmente simula humanos operando um navegador da web, o Operator pode concluir automaticamente tarefas complexas, como reserva de acomodações para viagens, reservas em restaurantes e compras online.
Os usuários podem escolher diferentes tarefas de automação em diversas categorias, abrangendo áreas como compras, entregas, restaurantes e viagens.
Este recurso estará disponível primeiro para usuários dos EUA que assinam o plano Pro de US$ 200 e será gradualmente expandido para usuários dos níveis Plus, Team e Enterprise.
Espera-se que a API esteja disponível dentro de semanas.
Os usuários podem acessar o serviço através de operator.chatgpt.com. A OpenAI planeja integrá-lo ao ChatGPT no futuro. No entanto, o ChatGPT entrou em colapso novamente esta manhã.
Simplificando, quando o usuário habilita o Operador, o sistema irá abrir uma pequena janela para exibir a interface de operação do navegador dedicado e explicar as tarefas que estão sendo executadas em tempo real. Durante esse período, o usuário pode assumir o controle a qualquer momento.
No nível técnico, o Operador usa um navegador remoto na nuvem para executar tarefas sem depender de APIs do site.
Ele identifica elementos da interface por meio de capturas de tela, planeja ações de acompanhamento e forma um ciclo fechado de “observação-planejamento-execução” até que a tarefa seja concluída. O sistema suporta processamento paralelo multitarefa, tem alta eficiência operacional e pode manter o status de login.
OpenAI fez parceria com empresas como DoorDash, Instacart, Priceline, StubHub e Uber.
Daniel Danker, diretor de produtos da Instacart, destacou que “o Operador OpenAI é um avanço tecnológico que torna processos como pedidos de mantimentos extremamente simples”.
Como de costume, a OpenAI também realizou uma conferência de imprensa ao mesmo tempo. Sam Altman se junta a Yash Kumar, Casey Chu e Reiichiro Nakano para apresentar e demonstrar o Operador.
A demonstração cobriu vários cenários práticos de aplicação, como reservar um assento para duas pessoas no restaurante Beretta por meio do OpenTable. O horário original das 7 horas não estava disponível e foi remarcado para 7h45.
Use o sistema de compras Instacart para identificar sua lista de compras – ovos, espinafre, cogumelos, coxinhas de frango, batatas fritas – e assuma o controle para adicionar mais ovos e muito mais ao longo do caminho.
Tente pesquisar e comprar ingressos para jogos do Warriors com um orçamento de US $ 500 no StubHub; reserve serviços de limpeza e planeje pedir comida, pizza para churrasco e muito mais através do DoorDash;
O ideal é lindo, mas a realidade é muito tênue. O maior problema do Operador atualmente é que ele não é estável o suficiente. A demonstração correu bem no início, mas encontrou uma série de "rollovers" durante os estágios intermediário e posterior da demonstração e até não conseguiu carregar as páginas da web relevantes.
Talvez para garantir o sucesso da demonstração, as palavras digitadas pelo apresentador fossem cada vez mais longas.
A celebridade da plataforma X @rowancheung também experimentou e compartilhou suas observações sobre o Operador com antecedência.
Por exemplo, embora o Operador seja executado no ChatGPT, suas funções são completamente diferentes. Ele se concentra principalmente nas operações da página da web (clicar, rolar, digitar) em vez de gerar texto longo. Ainda existem limitações no sistema, incluindo alguns sites que bloqueiam o acesso à IA e integração limitada de parceiros.
Ele ressaltou que o Operador requer métodos de uso específicos para otimizar o efeito, assim como o GPT-4 é adequado para prompts CoT, mas a pesquisa atual sobre o melhor uso do Operador ainda é preliminar.
No entanto, ele ainda está otimista de que esta tecnologia pode ajudar as pessoas a automatizar tarefas chatas para que possam usar seu tempo em assuntos mais valiosos.
Anteriormente, foi relatado que o conteúdo da captura de tela usado pelo Operador durante a execução de tarefas pode ser usado de forma maliciosa, levando a “ataques de injeção imediata”, representando sérios riscos de segurança.
Portanto, garantir o uso seguro dos Operadores é uma prioridade máxima.
De acordo com o blog oficial, a OpenAI usa principalmente múltiplas camadas de medidas de proteção para evitar abusos e garantir que os usuários controlem firmemente o Operador.
- Modo Takeover: A Operadora solicita que o usuário assuma o controle ao inserir informações confidenciais no navegador, como credenciais de login ou informações de pagamento. No modo takeover, a operadora não coletará nem fará capturas de tela das informações inseridas pelo usuário.
- Confirmação do Usuário: A Operadora deve solicitar aprovação antes de concluir qualquer ação significativa (como enviar um pedido ou enviar um e-mail).
- Restrições de tarefas: Os operadores são treinados para recusar determinadas tarefas sensíveis, como transações bancárias, ou tarefas que exijam decisões de alto risco, como tomar uma decisão sobre um pedido de emprego.
- Modo de observação: Em sites particularmente sensíveis, como e-mail ou serviços financeiros, o Operador precisa monitorar de perto seu comportamento para que os usuários possam detectar diretamente quaisquer possíveis erros.
Além disso, a OpenAI implementou medidas abrangentes de proteção de privacidade e segurança para o Operador. Em termos de gerenciamento de privacidade, os usuários podem optar por sair do treinamento do modelo, excluir dados de navegação e histórico de conversas com um clique e sair de todos os sites.
Para evitar ataques de sites maliciosos, o sistema estabeleceu um mecanismo de defesa em várias camadas, incluindo detecção e ignoração de injeções imediatas, monitoramento de comportamentos suspeitos e estabelecimento de um pipeline de identificação de ameaças. Ao mesmo tempo, a Operadora possui um sistema de auditoria para rejeitar solicitações prejudiciais e conteúdos inadequados, e emitir avisos ou revogar direitos de acesso em caso de violações.
O "Relatório de Experiência" foi anunciado. Quão forte é a tecnologia CUA por trás do Operador?
O Agente Utilizador de Computador (CUA) é a principal tecnologia de suporte ao Operador. Ele combina os recursos de reconhecimento visual do GPT-4o e recursos avançados de raciocínio baseados em aprendizado por reforço.
CUA foi treinado para dominar a capacidade de interagir com interfaces gráficas de usuário (GUIs), botões operacionais, menus e caixas de texto na tela como humanos, sem depender de um sistema operacional específico ou API de rede.
É relatado que sua inovação reside no uso de um método de interface universal, que permite à IA operar várias ferramentas de software como humanos, rompendo muitos cenários de aplicação de nicho com os quais a IA tradicional é difícil de lidar.
No entanto, a OpenAI admitiu que o CUA ainda tem muitas áreas para melhorias. Por exemplo, atualmente não é capaz de garantir um funcionamento estável em todos os cenários.
O sistema CUA implantado pela OpenAI no Operator demonstra o desempenho em diferentes cenários. Por exemplo, tem um bom desempenho em operações básicas da web e tarefas repetitivas, como pesquisa e filtragem, criação de listas de compras e playlists de música, com uma taxa de sucesso de 10/10.
Ele também mantém uma alta taxa de sucesso de 9/10 na busca de produtos em sites de comércio eletrônico. Mas quando se trata de tarefas como pesquisas complexas de propriedades, a taxa de sucesso cai para 3/10.
O teste também descobriu que a qualidade das palavras de alerta afetará significativamente a taxa de sucesso da tarefa. Por exemplo, na tarefa de reserva de local, após adicionar diretrizes específicas de tempo e operação, a taxa de sucesso aumentou de 3/10 para 8/10.
O sistema tem um desempenho ruim ao lidar com interfaces de UI desconhecidas e edição de texto. Muitas vezes ocorrem tentativas e erros e operações ineficientes. A taxa de sucesso das tarefas de edição de texto é de apenas 4/10.
Para melhor quantificar os indicadores de desempenho da Operadora, os apresentadores da conferência também mencionaram o teste OS World e o teste Web Arena.
O OS World é usado para avaliar a capacidade de navegação dos agentes de IA em sistemas operacionais como o Linux Operator com pontuação de 38,1%, que é superior a outros sistemas públicos, mas inferior ao nível humano (72,4%).
A Web Arena testa e avalia a capacidade de navegação dos agentes de IA em sites de comércio eletrônico e fóruns sociais. A Operadora obteve pontuação de 58,1%, que também superou outros sistemas públicos de IA, mas ficou aquém dos níveis humanos.
Em termos de segurança, a sessão de demonstração introduziu três considerações principais de segurança. A primeira é que o sistema se recusa a realizar tarefas prejudiciais, utiliza um modelo de auditoria e posterior detecção e bloqueia sites específicos.
Em segundo lugar, relativamente a possíveis erros no modelo, o sistema deve obter a confirmação do utilizador antes de realizar operações chave, como compras e reservas, limitar tarefas de alto risco, como transações bancárias, e ativar o modo de observação em sites sensíveis.
Especialmente para ataques adversários em sites (como injeção imediata, jailbreak e phishing), o sistema projetou um mecanismo de navegação cauteloso para identificar e ignorar a injeção imediata, um modelo de monitoramento em tempo real para detectar conteúdo suspeito e um pipeline de detecção para identificar rapidamente conteúdo suspeito. padrões de acesso.
Finalmente, o sistema está equipado com um monitor de injeção (monitor de injeção imediata), que é semelhante ao software antivírus. O modelo de monitoramento em tempo real detecta conteúdo suspeito e suspende a execução quando um comportamento suspeito é descoberto.
Considerando que é impossível prever todos os riscos de segurança, a OpenAI só pode começar com uma implementação em pequena escala e melhorar o mecanismo de segurança através da recolha contínua de feedback.
A ascensão do ChatGPT provou que grandes produtos muitas vezes nascem de inúmeras tentativas “imperfeitas”.
A OpenAI também admite francamente que o Operador atualmente suportado pelo CUA é apenas uma tecnologia inicial. Embora tenha se mostrado útil em cenários específicos, ainda precisa de melhorias contínuas por meio do feedback do usuário.
Além disso, eles planejam melhorar a adaptabilidade do sistema a interfaces desconhecidas, melhorar a precisão da edição de texto, otimizar a compreensão de diferentes palavras de prompt e expandir a gama de tarefas confiáveis.
Altman disse em uma postagem no blog no início do mês que a OpenAI está confiante na construção de inteligência artificial geral (AGI) e previu que o primeiro lote de agentes de IA “se juntará à força de trabalho” em 2025.
Incluindo Zhipu também anunciou ontem o lançamento do GLM-PC.
Ele é baseado no CogAgent, um grande modelo multimodal do Wisdom Spectrum, e é o primeiro agente de computador pronto para uso do mundo, voltado para o público. Ele pode “observar” e “operar” computadores como humanos, ajudando os usuários a concluir várias tarefas do computador com eficiência.
É previsível que estes agentes inteligentes tenham fortes capacidades autónomas de tomada de decisão e execução de tarefas no futuro, sejam capazes de lidar com tarefas complexas e até mesmo substituir o trabalho humano em alguns campos, e mudar fundamentalmente os métodos de produção e a produção das empresas.
No roteiro AGI de cinco níveis da OpenAI, o agente está no nível L3, que se caracteriza não apenas por pensar, mas também por realizar ações em nome do usuário e executar tarefas complexas.
Deste ponto de vista, o Operador não é apenas o primeiro passo para os agentes OpenAI, mas também um passo importante em direção à AGI.
# Bem-vindo a seguir a conta pública oficial do WeChat de Aifaner: Aifaner (ID do WeChat: ifanr). Mais conteúdo interessante será fornecido a você o mais rápido possível.