O aplicativo HuggingSnap oferece a melhor ferramenta de IA da Apple, com um toque conveniente

A plataforma de aprendizado de máquina, Hugging Face, lançou um aplicativo iOS que dará sentido ao mundo ao seu redor visto pela câmera do seu iPhone. Basta apontá-lo para uma cena ou clicar em uma imagem e ele implantará uma IA para descrevê-la, identificar objetos, realizar tradução ou obter detalhes baseados em texto.

Chamado HuggingSnap, o aplicativo adota uma abordagem multimodelo para entender a cena ao seu redor como uma entrada e agora está disponível gratuitamente na App Store. Ele é desenvolvido com SmolVLM2, um modelo aberto de IA que pode lidar com texto, imagem e vídeo como formatos de entrada.

O objetivo geral do aplicativo é permitir que as pessoas aprendam sobre os objetos e cenários ao seu redor, incluindo o reconhecimento de plantas e animais. A ideia não é muito diferente da Inteligência Visual em iPhones , mas o HuggingSnap tem uma vantagem crucial sobre seu rival Apple.

Não requer internet para funcionar

SmolVLM2 rodando em um iPhone

Tudo o que você precisa é de um iPhone com iOS 18 e pronto. A IU do HuggingSnap não é muito diferente daquela que você obtém com o Visual Intelligence. Mas há uma diferença fundamental aqui.

A Apple depende do ChatGPT para que a Inteligência Visual funcione . Isso ocorre porque o Siri atualmente não é capaz de atuar como uma ferramenta generativa de IA, como o ChatGPT ou o Gemini do Google, ambos com seu próprio banco de conhecimento. Em vez disso, ele transfere todas essas solicitações e consultas de usuários para o ChatGPT.

Isso requer uma conexão com a Internet, pois o ChatGPT não funciona no modo offline. O HuggingSnap, por outro lado, funciona perfeitamente. Além disso, uma abordagem offline significa que nenhum dado do usuário sai do seu telefone, o que é sempre uma mudança bem-vinda do ponto de vista da privacidade.

O que você pode fazer com o HuggingSnap?

Frasco de perfume de identificação HuggingSnap.
Nadeem Sarwar/DigitalTrends

HuggingSnap é alimentado pelo modelo SmolVLM2 desenvolvido pela Hugging Face. Então, o que esse modelo que comanda o programa por trás desse aplicativo pode realizar? Bem, muito. Além de responder perguntas com base no que vê pela câmera do iPhone, ele também pode processar imagens escolhidas na galeria do seu telefone.

Por exemplo, mostre-lhe a foto de algum monumento histórico e peça sugestões de viagens. Ele pode entender o que aparece em um gráfico ou entender a imagem de uma conta de luz e responder a perguntas com base nos detalhes obtidos no documento.

Ele tem uma arquitetura leve e é particularmente adequado para aplicações de IA no dispositivo. Em benchmarks, ele tem um desempenho melhor do que o modelo aberto concorrente PaliGemma (3B) do Google e está ao lado do modelo Qwen AI rival do Alibaba com capacidades de visão.

Executando o aplicativo HuggingSnap no iPhone.
Nadeem Sarwar/DigitalTrends

A maior vantagem é que requer menos recursos do sistema para funcionar, o que é particularmente importante no contexto dos smartphones. Curiosamente, o popular reprodutor de mídia VLC também usa o mesmo modelo SmolVLM2 para fornecer descrições de vídeo, permitindo que os usuários pesquisem um vídeo usando instruções em linguagem natural.

Ele também pode extrair de forma inteligente os momentos de destaque mais importantes de um vídeo. “Projetado para ser eficiente, o SmolVLM pode responder perguntas sobre imagens, descrever conteúdo visual, criar histórias baseadas em múltiplas imagens ou funcionar como um modelo de linguagem pura sem entradas visuais”, diz o repositório GitHub do aplicativo.