O minimalismo triunfa sobre a grandiosidade! O modelo em miniatura mais poderoso do Google acaba de ser lançado e funciona até em celulares.

abril 3, 2026 gurinho

"Aberto" e "código aberto" não são apenas palavras diferentes.

A série Gemma do Google está disponível há dois anos. Os desenvolvedores podem baixá-la e executá-la localmente, mas seu uso é limitado, a redistribuição é restrita e as modificações não podem ser distribuídas livremente. Na melhor das hipóteses, ela pode ser considerada "aberta", e não atende ao padrão de "código aberto" da comunidade de IA.

▲Demis Hassabis, CEO do Google DeepMind

Acaba de ser lançado o Google, com quatro modelos da série Gemma 4, totalmente de código aberto e com suporte ao Apache 2.0. A versão menor pode funcionar completamente offline em um Raspberry Pi. Pela primeira vez, o mini-modelo Gemma tornou-se verdadeiramente acessível a todos.

Pequeno, minúsculo…

O Gemma 4 foi lançado em quatro tamanhos, compartilhando a mesma tecnologia subjacente do Gemini 3, abrangendo hardware desde dispositivos de borda até estações de trabalho de alto desempenho:

E2B / E4B: Projetado especificamente para celulares e dispositivos IoT, otimizado em estreita colaboração com a equipe do Google Pixel, Qualcomm e MediaTek. Durante a inferência, apenas os parâmetros 2B e 4B são ativados respectivamente para minimizar o consumo de memória e energia.

Suporta janelas de contexto de 128 mil, oferece recursos de entrada de imagem, vídeo e áudio nativo e funciona completamente offline em telefones Pixel, Raspberry Pi e Jetson Orin Nano com latência quase zero. Os desenvolvedores Android agora podem experimentar o Modo Agente antecipadamente por meio da Prévia para Desenvolvedores do AICore.

26B MoE: Uma arquitetura híbrida especializada que ativa apenas 3,8 bilhões de todos os parâmetros durante a inferência, mantendo alta qualidade e garantindo uma velocidade de inferência extremamente rápida. Obteve uma pontuação de texto de 1441 no Arena AI, ficando em sexto lugar entre os modelos de código aberto.

31B Dense: Buscando o máximo desempenho bruto, o Arena AI alcançou uma pontuação de texto de 1452, ficando em terceiro lugar entre os modelos de código aberto. Os pesos bfloat16 não quantizados podem ser executados em uma única placa NVIDIA H100 de 80 GB, enquanto a versão quantizada é compatível com GPUs de consumo, fornecendo uma base sólida para ajustes finos locais.

Em termos de capacidades, os quatro modelos são altamente consistentes: todos suportam inferência em várias etapas e lógica complexa; suportam nativamente chamadas de função, saída estruturada em JSON e comandos do sistema, permitindo a construção de agentes autônomos que podem interagir com ferramentas e APIs externas; suportam entrada de imagem e vídeo e se destacam em tarefas visuais, como OCR e compreensão de gráficos; e foram pré-treinados em mais de 140 idiomas.

A janela de contexto para as versões 26B e 31B foi expandida para 256 KB, permitindo a passagem de um código-fonte completo ou de um documento extenso em um único prompt.

Os resultados dos testes de benchmark podem ilustrar de forma mais intuitiva a extensão das melhorias desta geração.

Em comparação com seu antecessor, Gemma 3 27B, o Gemma 4 31B apresentou um salto de 20,8% para 89,2% no benchmark de raciocínio matemático AIME 2026, melhorou de 29,1% para 80,0% no benchmark de capacidade de codificação LiveCodeBench v6 e aumentou significativamente de 6,6% para 86,4% no τ2-bench, que mede as capacidades de invocação de ferramentas do agente.

Esses três pontos de dados são particularmente cruciais porque correspondem diretamente aos três cenários de aplicação mais importantes da atualidade: raciocínio, programação e agentes.

A eficiência dos parâmetros é outra dimensão que vale a pena mencionar. Observando o gráfico de dispersão de "Desempenho do Modelo vs. Quantidade de Parâmetros", o Gemma 4, com apenas 26 e 31 parâmetros, alcançou pontuações Elo que normalmente exigem centenas de bilhões ou até trilhões de parâmetros.

A pontuação do Arena AI do modelo 26B MoE é próxima à do Qwen3.5-397B-A17B, que possui cerca de 15 vezes mais parâmetros, enquanto a pontuação do Dense, com 31 bilhões de parâmetros, está no mesmo nível do GLM-5, que tem mais de 600 parâmetros. O Google resume isso como "densidade de inteligência sem precedentes por unidade de parâmetro", e pelo menos os números parecem razoáveis.

Vale a pena prestar atenção também aos modelos Edge.

O E2B alcançou 60,0% no benchmark de perguntas e respostas multilíngues MMMLU e 43,4% no benchmark de conhecimento científico GPQA Diamond. Vale ressaltar que este é apenas um modelo que ativa o parâmetro 2B e funciona em um dispositivo móvel. Em comparação, o Gemma 3 27B obteve 42,4% no GPQA Diamond, tornando os resultados praticamente idênticos.

Em outras palavras, o modelo 2B em telefones celulares alcançou a geração anterior de modelos para computadores desktop, com 27 bilhões de parâmetros.

No âmbito do ecossistema de hardware, a NVIDIA e o Google colaboraram em otimizações de inferência do Gemma 4 em GPUs RTX, no supercomputador pessoal de IA DGX Spark e no Jetson Orin Nano.

Os núcleos Tensor da NVIDIA e a pilha de software CUDA fornecem ao Gemma 4 suporte nativo para alto desempenho e baixa latência. O aplicativo agente local OpenClaw também foi adaptado ao modelo mais recente, permitindo a execução automatizada de tarefas por meio da chamada de arquivos de usuário locais e contexto do aplicativo.

De "aberto" para "código aberto", abrindo-se assim uma nova possibilidade.

Para entender esta versão, é necessário primeiro esclarecer a relação entre Gemma e Gemini. Ambos são construídos sobre o mesmo sistema de pesquisa e tecnologia, mas a diferença reside no fato de que Gemini é um produto de código fechado baseado em assinatura, enquanto Gemma é um modelo de código aberto que pode ser baixado gratuitamente e executado localmente.

A série Gemma sempre utilizou os termos de serviço proprietários do Google.

Embora os desenvolvedores possam baixá-lo e executá-lo localmente, seu uso e redistribuição são limitados, portanto, estritamente falando, ele só pode ser considerado "aberto", e não "de código aberto". O Google ainda detém o controle.

Gemma 4 passou oficialmente para a licença Apache 2.0. Sob esta licença, os desenvolvedores podem usar o modelo para qualquer finalidade, incluindo uso pessoal, comercial e empresarial, sem pagar royalties, sem quaisquer restrições de uso e com igual liberdade para modificá-lo e redistribuí-lo.

O Apache 2.0 também inclui um mecanismo integrado de proteção de patentes: as patentes dos colaboradores são licenciadas automaticamente aos usuários e, se um usuário processar outra parte por violação de patente, a licença é automaticamente revogada. Essa cláusula bilateral oferece proteção jurídica adicional para usuários corporativos.

A verdadeira importância desta versão de código aberto reside no fato de que o Gemma 4 agora pode ser legalmente empacotado e distribuído como parte de produtos, serviços e dispositivos de hardware. Para usuários em setores com requisitos de soberania ou conformidade de dados, como saúde e finanças, a operação totalmente local significa que os dados não precisam ser enviados para a nuvem, mantendo o acesso a recursos de IA de ponta.

Clément Delangue, cofundador e CEO da Hugging Face, classificou a mudança de licenciamento como "um marco significativo". Desde seu lançamento inicial em fevereiro de 2024, a série Gemma foi baixada mais de 400 milhões de vezes, com mais de 100.000 variantes criadas pela comunidade.

Os pesos do modelo já estão disponíveis no Hugging Face, Kaggle e Ollam, e frameworks populares como Transformers, TRL, vLLM, llama.cpp, MLX, Unsloth, SGLang e Keras já oferecem suporte a eles desde o lançamento.

A implantação local pode ser iniciada rapidamente usando Ollam ou llama.cpp com pesos no formato GGUF, enquanto o Unsloth Studio oferece suporte simultâneo para ajuste fino e implantação de modelos de quantização. Para expansão na nuvem, também estão disponíveis o Google Vertex AI, o Cloud Run e o GKE.

Modelos menores, como o Gemma 4, têm um significado mais profundo porque respondem novamente a uma questão fundamental: Onde a IA deve operar?

Nos últimos dois anos, a resposta para essa pergunta tem sido quase sempre a padrão:

Centros de dados. Os usuários acessam modelos de nuvem por meio de interfaces de rede, o que exige o upload de dados e o uso de conexões interdependentes, com custos definidos pelo provedor de serviços. Esse modelo funciona razoavelmente bem em cenários de consumo, mas para setores com fortes requisitos de soberania de dados, como saúde, finanças e manufatura, ele continua sendo um obstáculo significativo.

Gemma 4 oferece outra possibilidade.

Telefones celulares, Raspberry Pis e terminais de fábrica sem acesso à rede externa podem realizar inferência de modelos localmente. Os dados não saem do dispositivo e as decisões não passam pela nuvem. A licença Apache 2.0 amplia ainda mais o escopo de aplicação: os modelos podem ser legalmente incorporados a produtos de hardware e pré-instalados em dispositivos industriais, não estando mais sujeitos a restrições de conformidade quanto a protocolos de chamada e exportação de dados.

As métricas de desempenho também confirmam a viabilidade dessa abordagem. A pontuação do E2B no benchmark de conhecimento científico GPQA Diamond é praticamente equivalente à do modelo desktop da geração anterior, com 27 bilhões de parâmetros, enquanto ele ativa apenas 2 bilhões de parâmetros durante a inferência e pode ser executado completamente offline em um celular.

"Mais barato" ou "mais conveniente" já não são suficientes para descrever essa mudança; trata-se mais de uma expansão da cobertura, com as capacidades de IA começando a entrar de fato naqueles cenários há muito excluídos.

A popularização dos sistemas operacionais seguiu um processo semelhante: de ferramentas especializadas usadas por organizações profissionais à sua gradual incorporação em todos os dispositivos pessoais, até que as pessoas deixem de perceber sua existência. A IA ainda está longe desse estágio; as questões de engenharia, interação e confiabilidade ainda não foram totalmente resolvidas. No entanto, a capacidade de funcionar em qualquer dispositivo é, sem dúvida, o passo mais fundamental e crucial nesse caminho.

#Siga a conta oficial do iFanr no WeChat: iFanr (ID do WeChat: ifanr), onde você encontrará conteúdo ainda mais interessante o mais breve possível.