Se você programa aplicativos Android com IA, o novo benchmark do Google facilita a escolha do modelo certo.
Para desenvolvedores de aplicativos Android que dependem de IA para codificar, escolher o modelo certo pode ser complicado. Nem todos os modelos são iguais e muitos não são treinados especificamente para fluxos de trabalho de desenvolvimento Android. Para solucionar isso, o Google introduziu um novo benchmark para ajudar os desenvolvedores a entender o desempenho de diferentes modelos de IA em tarefas de codificação Android do mundo real.
Apelidado de Android Bench , o novo benchmark foi projetado para avaliar o desempenho de grandes modelos de linguagem (LLMs) em tarefas típicas de desenvolvimento para Android. O Google explica que o benchmark avalia os modelos usando tarefas reais de projetos públicos no GitHub, solicitando que eles recriem pull requests reais e resolvam problemas semelhantes aos que os desenvolvedores encontram ao criar aplicativos para Android. Os resultados são então verificados para constatar se realmente resolvem o problema.
Em termos mais simples, o teste de desempenho verifica se o código gerado pelos modelos de IA realmente resolve o problema, em vez de apenas parecer correto superficialmente. Isso ajuda o Google a mensurar a utilidade real de diferentes modelos na resolução de problemas reais de desenvolvimento para Android.
Com a primeira versão do Android Bench, o Google planejava "medir puramente o desempenho dos modelos e não focar no uso de agentes ou ferramentas". Os resultados destacam uma grande discrepância, com os modelos concluindo com sucesso entre 16% e 72% das tarefas do benchmark. A empresa afirma que a publicação desses resultados deve facilitar a comparação entre os modelos pelos desenvolvedores e a escolha daqueles que são realmente capazes de lidar com problemas reais de programação em Android.
Além de orientar os desenvolvedores, o benchmark também pode impulsionar as empresas de IA a aprimorarem a compreensão de seus modelos sobre o desenvolvimento para Android. Para apoiar esse esforço, o Google publicou a metodologia, o conjunto de dados e a estrutura de testes do Android Bench no GitHub. Com o tempo, isso poderá levar a ferramentas de IA mais bem equipadas para navegar por bases de código complexas do Android e ajudar os desenvolvedores a criar e corrigir aplicativos com mais eficiência.
O artigo "Se você programa aplicativos Android com IA, o novo benchmark do Google facilita a escolha do modelo certo" foi publicado originalmente no Digital Trends .

