O iPad também pode executar modelos de nível GPT-4o. O novo modelo de pequeno canhão de aço doméstico pode tornar o hardware de IA não mais inútil.
Na recém-concluída exposição CES 2025, milhares de produtos de hardware de IA confirmaram uma tendência inquebrável da indústria, ou seja, a IA está se movendo da nuvem para todos os dispositivos ao nosso redor com um impulso avassalador, e cada onda está ficando cada vez maior.
Pode-se dizer que a IA não é mais um ponto positivo para os produtos, mas sim a base das capacidades do produto.
Para os fabricantes tradicionais que se esforçaram muito em hardware, não é fácil instalar IA em pequenos dispositivos terminais. Felizmente, a indústria de serviços de modelo de IA gradualmente se diferenciou em duas rotas claras: IA na nuvem e IA no dispositivo.
No primeiro campo, os fabricantes representados pela OpenAI são conhecidos de todos há muito tempo e, quando se trata do último, uma empresa é particularmente atraente – a inteligência voltada para a parede. Eles têm apostado na rota da IA do lado do dispositivo desde o início e agora se tornaram um player importante que não pode ser ignorado neste campo.
Hoje, a Face Wall Intelligence também lançou oficialmente um novo modelo MiniCPM-o 2.6.
Com apenas 8B de parâmetros, ele pode assistir vídeos, ouvir sons, ler textos e falar eloquentemente como humanos. Além disso, sua resposta é tão rápida quanto a dos humanos, quase sem atraso. Em termos mais populares, ele pode ver com os olhos, ouvir com os ouvidos, falar com a boca e pensar com o cérebro como um ser humano.
Endereço de código aberto MiniCPM-o 2.6:
GitHub https://github.com/OpenBMB/MiniCPM-o
Abraçando cara :https://huggingface.co/openbmb/MiniCPM-o-2_6
Vídeo real, não maquete de foto
Quando dizemos que o MiniCPM-o 2.6 é um “modelo de vídeo real”, isso não é conversa fiada. Sendo a primeira IA local do mundo a atingir o nível GPT-4o, ela demonstra capacidades de percepção completas, além dos modelos de nuvem.
Na demonstração oficial, ao jogar o jogo “Três Imortais Retornam à Caverna”, ele pode rastrear a posição da bola antes que o público faça perguntas ao jogar o jogo de cartas de memória, podendo lembrar com precisão o padrão e a posição de cada carta; .
Comparado com alguns modelos ou produtos no mercado que afirmam oferecer suporte à compreensão de streaming de vídeo em tempo real, o MiniCPM-o 2.6 pode perceber as imagens e sons antes que o usuário faça perguntas, permitindo-lhes ouvir, ver e sentir, e está mais próximo de a interação visual natural do olho humano.
Essa capacidade de observação contínua e compreensão em tempo real é algo que outros grandes modelos fotográficos não conseguem alcançar.
Vamos falar sobre sons. O MiniCPM-o 2.6 pode não apenas compreender a fala humana, mas também distinguir sons de fundo que não sejam vozes humanas, como rasgar papel, derramar água, colisão de metal e outros sons. E mesmo o GPT-4o não pode fazer isso.
O mesmo “Olá” dito em tons diferentes pode ser uma saudação calorosa ou uma resposta fria.
A comunicação entre humanos e IA deveria ser muito natural.
O processo dos modelos tradicionais de IA soa um pouco como outra forma de “tradução”, primeiro transformando sons em texto e depois transformando o texto novamente em sons. Dessa forma, características sutis como o sotaque e a emoção do locutor são perdidas.
Mas o MiniCPM-o 2.6 é diferente.
Assim como o ouvido humano, ele pode capturar e compreender diretamente vários detalhes do som. Não só isso, mas pode ajustar a emoção e o estilo do som conforme necessário, e pode até imitar sons específicos ou criar sons inteiramente novos com base em descrições.
O excelente desempenho do MiniCPM-o 2.6 na vida real também foi bem quantificado na lista de testes de benchmark, e alcançou todos os SOTA no "triatlo" audiovisual:
O MiniCPM-o 2.6 alcançou o modelo SOTA de código aberto totalmente modal de streaming em tempo real e seu desempenho é comparável ao GPT-4o e Claude-3.5-Sonnet, que representam o nível mais alto do mundo em termos de voz, alcançou compreensão; e geração de SOTA duplo de código aberto, buscando o modelo universal de voz de código aberto mais forte no campo de visão onde as vantagens sempre foram proeminentes, está firmemente estabelecido como o modelo geral de visão ponta a ponta mais forte;
No StreamingBench, uma lista representativa de recursos de compreensão de streaming de vídeo em tempo real, o desempenho do MiniCPM-o 2.6 também é comparável ao GPT-4o e Claude 3.5 Somnnet. É importante notar que a API GPT-4o não pode inserir voz e vídeo ao mesmo tempo. Atualmente, a avaliação quantitativa insere texto e vídeo.
Em termos de compreensão de fala, supera o Qwen2-Audio 7B e realiza o modelo geral SOTA de código aberto (incluindo ASR, descrição de fala e outras tarefas, em termos de geração de fala, o MiniCPM-o 2.6 supera o GLM-4-Voice 9B e realiza); o modelo geral SOTA de código aberto.
De “utilizável” a “fácil de usar”, enfrentamos a parede e fizemos o nosso próprio caminho
O lançamento do MiniCPM-o 2.6 é inseparável de seus avanços tecnológicos em compactação de modelos, adaptação de hardware e arquitetura de streaming totalmente modal.
- Arquitetura de streaming modal completo de ponta a ponta: com base no modelo 4B do MiniCPM 3.0, o processamento unificado de visão e voz é alcançado por meio de design modular. Os módulos são conectados ponta a ponta para garantir a transmissão sem perdas de informações multimodais e melhorar a naturalidade do conteúdo gerado.
- Tecnologia de simultaneidade modal de baixa latência: utiliza de forma inovadora a tecnologia de multiplexação por divisão de tempo para dividir o sinal de entrada em intervalos de tempo para processamento paralelo. A semântica inteligente é usada para determinar o horário final da entrada do usuário, reduzindo efetivamente os atrasos de resposta do sistema.
- Aprendizagem por streaming modal completo de ponta a ponta: com base na teoria do comportamento da fala, o modelo não simplesmente processa informações, mas entende as intenções sociais do falante. Através da aprendizagem e da dramatização em ambiente multimodal, é alcançada uma compreensão semântica mais avançada, estabelecendo as bases para futuras aplicações de robôs incorporados.
Na verdade, quando desviamos a nossa atenção destas deslumbrantes conquistas técnicas para o ambiente operacional real do modelo final, temos de enfrentar uma realidade objectiva. A implantação do modelo em dispositivos terminais ainda enfrenta três desafios principais: memória, consumo de energia e poder computacional.
A Apple apontou em seu artigo "LLM in a flash" que um modelo de linguagem com 7 bilhões de parâmetros de meia precisão exigiria mais de 14 GB de espaço DRAM para ser totalmente carregado no terminal. Meta apontou em seu artigo de modelo MobileLLM que um documento completo; energia da bateria de cerca de 5.000 joules Para o iPhone, apenas o modelo 7B suporta menos de 2 horas de conversação a uma taxa de geração de IA de 10 tokens/segundo.
Para colocar um elefante na geladeira, os fabricantes de chips para telefones celulares aceleraram a pesquisa e o desenvolvimento de chips de IA, concentrando-se em processos de fabricação avançados, capacidade e largura de banda de memória e desempenho de CPU e GPU. As marcas de telefones celulares também equiparão baterias e componentes de resfriamento de alto desempenho para melhorar as capacidades gerais de hardware do terminal e oferecer melhor suporte aos modelos de IA.
Contudo, as melhorias de hardware são apenas parte da solução. O verdadeiro gargalo é como transportar mais inteligência com menos parâmetros. .
A pesquisa da equipe Wallface mostra que, com o avanço colaborativo de dados, poder computacional e algoritmos, o mesmo nível de inteligência pode ser alcançado com menos parâmetros. Por exemplo, as capacidades do GPT-3, que exigiam 175 mil milhões de parâmetros em 2020, serão alcançadas com apenas 2,4 mil milhões de parâmetros até Fevereiro de 2024.
Com base nesta descoberta, a equipe Wall-Facing propôs a lei de densidade do modelo grande (Lei de Densing) já no ano passado.
A densidade de capacidade do modelo aumenta exponencialmente ao longo do tempo, e os parâmetros do modelo que atingem a mesma capacidade diminuem pela metade a cada 3,3 meses (aproximadamente 100 dias). A sobrecarga de inferência do modelo diminui exponencialmente ao longo do tempo, e a sobrecarga de treinamento do modelo diminui rapidamente ao longo do tempo.
O modelo é compactado de forma eficiente e finalmente adaptado ao hardware do terminal, e o progresso resultante da indústria virá naturalmente.
A chegada do próximo ponto de viragem na eletrónica de consumo já não é uma simples atualização de hardware, mas uma mudança na forma como os produtos são utilizados e na experiência do utilizador a partir da lógica subjacente, o que também traz novas oportunidades e pontos de crescimento ao mercado.
A procura dos consumidores por produtos de IA nos dispositivos continua a aumentar e estão dispostos a pagar preços mais elevados por produtos mais inteligentes e convenientes. Isto levará as empresas a aumentar o investimento na investigação e desenvolvimento de tecnologia de IA nos dispositivos e na inovação de produtos.
De acordo com as previsões da IDC, em 2024, mais da metade dos dispositivos no mercado de equipamentos terminais da China terão a base de poder computacional para tarefas de computação de IA no nível de hardware. Em 2027, essa proporção aumentará ainda mais para quase 80%.
Na exposição CES 2025, também vimos que a integração de modelos e hardware do lado do dispositivo deu origem a uma série de produtos eletrônicos, incluindo AIPC, AIPhone, óculos inteligentes de IA, brinquedos complementares de IA, etc.
A trajetória de desenvolvimento da inteligência voltada para a parede também confirma esta tendência.
Somente no segundo semestre do ano passado, o modelo final MiniCPM inteligente voltado para a parede foi lançado em um ritmo acelerado. Estabeleceu sucessivamente relações de cooperação com Huawei Cloud, Accelerated Evolution Robot, Elephant Robot, Wutong Technology, Great Wall Motors,. MediaTek, Baidu Smart Cloud e Intel, e seu território de negócios se estendeu para cockpit inteligente, robôs, colaboração entre dispositivos em nuvem e outros campos.
Li Dahai, CEO da Wall-Facing Intelligence, disse em entrevista à APPSO que o MiniCPM-o 2.6 se concentrará em dispositivos com fortes atributos incorporados. Atualmente, a Wall-Facing Intelligence estabeleceu um relacionamento cooperativo profundo com fabricantes de robôs humanóides para acelerar sua evolução.
Em sua opinião, este modelo totalmente modal pode melhorar a função "cérebro" do robô e fornecer suporte técnico fundamental para o sistema de ontologia do robô. Ele também espera integrá-lo com mais fabricantes de robôs, automóveis, telefones celulares, etc. Cooperar com fabricantes de equipamentos com atributos especializados.
Olhando para trás, para a história de desenvolvimento do MiniCPM, desde o lançamento do modelo carro-chefe do lado do cliente MiniCPM 1.0 de primeira geração até a iteração para o MiniCPM 3.0, inauguramos o momento ChatGPT do lado do cliente. A MiniCPM sempre praticou a linha “pequeno e amplo + alta eficiência e baixo custo”.
Ao longo do caminho, a Wall-Facing Intelligence sempre acompanhou a tendência de modelos de código aberto em grande escala na China.
Desde o seu lançamento em fevereiro de 2024, a série MiniCPM de modelos finais foi baixada mais de 4 milhões de vezes, tornando-se o modelo chinês mais popular do mundo no Hugging Face 2024.
A inclusão da tecnologia de IA está passando por três estágios de evolução: primeiro, tornando-a acessível para uso de todos, depois tornando-a conveniente de usar e, finalmente, tornando-a confortável de usar.
A inteligência voltada para a parede está acelerando a transformação desta última milha.
# Bem-vindo a seguir a conta pública oficial do WeChat do aifaner: aifaner (WeChat ID: ifanr). Mais conteúdo interessante será fornecido a você o mais rápido possível.