GPT-4o e Gemini 1.5 Pro acabaram de ser derrotados na corrida de IA

junho 20, 2024 gurinho

uma captura de tela do soneto Claude 3.5, com um caranguejo de 8 bits — Antrópico

Há um novo líder, tecnicamente, na corrida pelo domínio dos assistentes de IA, e é o novo Claude 3.5 Sonnet da Anthropic. O modelo recém-lançado supera o Gemini 1.5 Pro e o ChatGPT-4o em uma série de testes de benchmark, anunciou a empresa na quinta-feira .

Esta nova iteração do Sonnet é a primeira na próxima linha de modelos 3.5 da Anthropic e supera significativamente o modelo mais expansivo Opus 3.0, e o faz por uma fração do custo de energia do modelo maior. A eficiência computacional está se tornando um aspecto cada vez mais importante do projeto de sistemas de IA , especialmente à medida que o custo de alimentação e resfriamento dos data centers de IA aumenta enquanto a infraestrutura atinge a faixa dos gigawatts .

Claude 3.5 Soneto para visão

“Claude 3.5 Sonnet opera com o dobro da velocidade do Claude 3 Opus”, escreveu a equipe da Anthropic em um blog. “Esse aumento de desempenho, combinado com preços econômicos, torna o Claude 3.5 Sonnet ideal para tarefas complexas, como suporte ao cliente sensível ao contexto e orquestração de fluxos de trabalho em várias etapas.”

O novo modelo estabeleceu resultados de referência em três testes padronizados: raciocínio em nível de pós-graduação com GPQA , conhecimento em nível de graduação com MMLU e proficiência em codificação com HumanEval . Ele superou o Gemini 1.5 Pro do Google, o Llama-400b da Meta e o ChatGPT-4o da OpenAI, embora não por uma margem enorme e normalmente apenas por alguns pontos percentuais.

Uma tabela que mostra o desempenho do Claude 3.5 Sonnet em comparação com outros sistemas líderes de IA. — Antrópico

O Soneto 3.5 está sendo anunciado como o “modelo de visão mais forte até agora” da Anthropic. ” Ele é capaz de realizar uma série de tarefas baseadas na visão – como interpretar tabelas e gráficos ou transcrever texto de fontes de imagens imperfeitas, como capturas de tela ou recibos digitalizados – com mais precisão do que o Opus 3.0. Na verdade, o Sonnet 3.5 superou o Opus 3.0 por uma margem de 6 a 17 pontos em todos os benchmarks de visão padrão da indústria. O novo modelo também é muito mais competente em lidar com o humor e pode conversar de uma maneira muito mais realista.

Sonnet também será a primeira IA antrópica a oferecer o recurso Artefatos aos usuários. Em vez de gerar imagens ou trechos de código diretamente no fluxo da conversa, o Artifacts criará esse conteúdo em um espaço dedicado ao lado do chat. Isso permite que os usuários criem “um espaço de trabalho dinâmico onde podem ver, editar e desenvolver as criações de Claude em tempo real, integrando perfeitamente o conteúdo gerado por IA em seus projetos e fluxos de trabalho”, afirma a equipe da Anthropic. Também anunciou que Claude em breve apoiará a colaboração em equipe, onde uma empresa poderá armazenar seus dados, documentos e projetos em um único silo central, com Claude atuando como assistente sob demanda.

Você pode experimentar o Claude 3.5 Sonnet hoje gratuitamente no site Claude.ai e no aplicativo Claude iOS (uma assinatura Claude Pro ou Team garantirá limites de taxa significativamente mais altos). A integração de terceiros também está disponível por meio da API Anthropic, Amazon Bedrock e Vertex AI do Google Cloud. Claude Haiku 3.5 e Opus 3.5 estão programados para lançamento ainda este ano.