A Nvidia acaba de lançar um LLM de código aberto para rivalizar com o GPT-4

CEO da Nvidia, Jensen, diante de um fundo.
Nvidia

A Nvidia, que constrói algumas das GPUs mais procuradas na indústria de IA, anunciou que lançou um modelo de linguagem grande de código aberto que supostamente funciona no mesmo nível dos principais modelos proprietários da OpenAI , Anthropic , Meta e Google .

A empresa apresentou sua nova família NVLM 1.0 em um white paper lançado recentemente e é liderada pelo modelo NVLM-D-72B de 72 bilhões de parâmetros. “Apresentamos o NVLM 1.0, uma família de modelos de linguagem multimodais de classe de fronteira que alcançam resultados de última geração em tarefas de linguagem de visão, rivalizando com os principais modelos proprietários (por exemplo, GPT-4o) e modelos de acesso aberto, ”, escreveram os pesquisadores.

A nova família de modelos já é capaz de “multimodalidade de nível de produção”, com desempenho excepcional em uma variedade de tarefas de visão e linguagem, além de respostas aprimoradas baseadas em texto em comparação com o LLM básico no qual a família NVLM se baseia. “Para conseguir isso, criamos e integramos um conjunto de dados somente texto de alta qualidade no treinamento multimodal, juntamente com uma quantidade substancial de dados multimodais de matemática e raciocínio, levando a capacidades aprimoradas de matemática e codificação em todas as modalidades”, explicaram os pesquisadores.

O resultado é um LLM que pode explicar facilmente por que um meme é engraçado e resolver equações matemáticas complexas, passo a passo. A Nvidia também conseguiu aumentar a precisão somente de texto do modelo em uma média de 4,3 pontos em benchmarks comuns da indústria, graças ao seu estilo de treinamento multimodal.

captura de tela do white paper da NVLM explicando o processo de explicação por que um meme é engraçado
Nvidia

A Nvidia parece séria em garantir que este modelo atenda à mais nova definição de “código aberto” da Open Source Initiative , não apenas disponibilizando seus pesos de treinamento para revisão pública, mas também prometendo lançar o código-fonte do modelo em um futuro próximo. Este é um afastamento marcante das ações de rivais como OpenAI e Google, que guardam zelosamente os detalhes dos pesos e do código-fonte de seus LLMs. Ao fazer isso, a Nvidia posicionou a família NVLM para não necessariamente competir diretamente com ChatGPT-4o e Gemini 1.5 Pro , mas servir como base para desenvolvedores terceirizados construirem seus próprios chatbots e aplicativos de IA.