Foi revelado que a OpenAI lançou uma função importante de agente esta semana, e a Byte anunciou o lançamento do plano AGI. Este pode ser o ano mais emocionante para a IA.

A versão ChatGPT de “Jarvis” está realmente chegando.

Em dezembro do ano passado, o CEO da OpenAI, Sam Altman, anunciou uma pesquisa interessante. Entre os avanços tecnológicos que os internautas mais esperam alcançar em 2025, o AGI liderou a lista, seguido pelos agentes inteligentes. Agora, essa expectativa parece estar parcialmente se concretizando.

Agora, de acordo com a mídia estrangeira The Information, citando pessoas familiarizadas com o assunto, a OpenAI está se preparando para lançar esta semana um novo recurso ChatGPT chamado Operador, que pode completar automaticamente tarefas complexas, como fazer reservas em restaurantes ou planejar viagens em um navegador da web.

O design funcional do operador é bastante fácil de usar. Especificamente, oferece aos usuários uma variedade de categorias de tarefas, como refeições e atividades, entrega, compras e viagens, com cada categoria equipada com sugestões correspondentes.

Quando o usuário insere um requisito, uma pequena janela do navegador aparecerá na interface de chat para exibir o processo de operação do agente Operador em tempo real. Ao realizar uma tarefa, ele solicitará detalhes conforme necessário, como horário específico e número de pessoas que fizeram uma reserva em um restaurante.

Vale ressaltar que os usuários podem não apenas controlar manualmente esta interface, mas também salvar tarefas e compartilhá-las com outras pessoas. Embora o Operador atualmente não ofereça suporte a operações do Gmail, os usuários podem fazer login em outros sites e o status de login será mantido em várias sessões.

No entanto, foi relatado anteriormente que o conteúdo da captura de tela usado pelo Operador ao executar tarefas pode ser usado de forma maliciosa, levando a “ataques de injeção imediata”, representando sérios riscos de segurança.

Portanto, mesmo que seja anunciado oficialmente esta semana, pode não ser lançado imediatamente. Espero que não seja mais um “futuro”. OpenAI ainda não respondeu a um pedido de comentário.

Na verdade, esse tipo de função de IA que pode controlar o equipamento do usuário e auxiliar na conclusão de operações complexas está se tornando o próximo tema quente que as empresas de IA nacionais e estrangeiras estão perseguindo.

Em outubro passado, a Anthropic lançou um recurso de operação de computador chamado “Uso do Computador”.

Esse recurso permite que os desenvolvedores orientem Claude por meio de uma API para operar o computador como um humano, incluindo olhar para a tela, mover o cursor, clicar em botões e inserir texto. Isso marca um passo importante na capacidade da IA ​​de simular a interação humano-computador.

Apenas dois meses depois, o Google também lançou um projeto chamado Project Mariner, desenvolvido pela Google DeepMind e baseado no modelo Gemini 2.0, que pode realizar tarefas para usuários no navegador Google Chrome.

Mudando seus horizontes para a China, a Zhipu também lançou uma versão web de sua função de direção autônoma chamada AutoGLM-Web.

Por meio do plug-in Zhipu Qingyan, os usuários podem permitir que a IA recupere, gere conteúdo e interaja automaticamente em várias plataformas, como Baidu, Weibo, Zhihu, Github, etc., e até mesmo suporte a operações entre sites, trazendo aos usuários um "totalmente automático" experiência on-line.

No roteiro AGI de cinco níveis da OpenAI, o agente está no nível L3, que se caracteriza não apenas por pensar, mas também por realizar ações em nome do usuário e executar tarefas complexas.

Os membros da indústria acreditam que os agentes inteligentes são a única forma de alcançar a inteligência artificial geral (AGI). Ao construir agentes inteligentes que possam tomar decisões e executar tarefas de forma autónoma, podemos gradualmente alcançar uma inteligência geral mais próxima dos níveis humanos.

Nesta corrida à AGI, as empresas tecnológicas chinesas também estão a acelerar o seu layout.

Em 23 de janeiro, a APPSO soube que a grande equipe de modelos da Byte Beanbao estabeleceu uma equipe interna de pesquisa de longo prazo da AGI, codinome "Seed Edge", para incentivar os membros do projeto a explorar tópicos de pesquisa de AGI de longo prazo, incertos e ousados.

Uma fonte próxima à Byte revelou que o objetivo do Seed Edge é explorar novos métodos de AGI. Seed no codinome é o nome da grande equipe de modelos Beanbao, enquanto Edge representa a exploração AGI mais avançada.

Atualmente, a Seed Edge identificou inicialmente cinco direções principais de pesquisa, incluindo:

  • Explore os limites da capacidade de raciocínio
  • Explore os limites da percepção
  • Explore o design do modelo de próxima geração que integra hardware e software
  • Explore os paradigmas de aprendizagem de IA da próxima geração
  • Explore a próxima direção de escala

Além disso, de acordo com informações obtidas posteriormente na Byte, o fundador da Byte, Zhang Yiming, atribui grande importância e enfatiza o aumento do investimento em pesquisa de IA. Ele não apenas estuda pessoalmente os artigos e presta atenção aos detalhes técnicos, mas também se comunica estreitamente com os principais pesquisadores de IA e. incentiva a equipe de pesquisa de IA da Byte a explorar e pesquisar tópicos básicos.

Em Singapura, ele até formou uma equipe de pesquisa dedicada, incluindo Feng Jiashi, ex-professor da Universidade Nacional de Cingapura e atual pesquisador da Byte, que atua como seu consultor técnico desde 2023.

Entre os gigantes da tecnologia da China, Byte deve ser aquele com grande quantidade de recursos e o mais rápido para agir, e tem potencial para ser All in AI. Nesta corrida para a AGI, o vencedor pode ainda não ser conhecido, mas a mudança começou silenciosamente.

# Bem-vindo a seguir a conta pública oficial do WeChat de Aifaner: Aifaner (ID do WeChat: ifanr). Mais conteúdo interessante será fornecido a você o mais rápido possível.

Ai Faner | Link original · Ver comentários · Sina Weibo |