O desempenho supera o GPT-4 Turbo! “SenseTime RiRixin” foi bastante atualizado e um modelo de supermercado doméstico em grande escala foi inaugurado

abril 24, 2024 gurinho

Alguns anos antes de a onda de grandes modelos se espalhar, houve na verdade uma onda de empreendedorismo em IA. Entre elas, SenseTime Technology, Megvii Technology, Yuncong Technology e Yitu Technology são representantes desse período. Essas quatro empresas também são conhecidas como os “Quatro Pequenos Dragões da IA chinesa”.

Nesta nova onda desencadeada pela OpenAI, SenseTime, um dos Quatro Pequenos Dragões, ainda permanece no centro do palco. Em abril do ano passado, a SenseTime lançou a série "Ririxin·Large Model". Foi uma das primeiras empresas na China a lançar um grande modelo de linguagem baseado em centenas de bilhões de parâmetros.

É novo todos os dias e é novo todos os dias.

Tang, o fundador da Dinastia Shang, gravou o lema de auto-admoestação acima na banheira. Assim como a profundidade das mudanças no campo AIGC hoje, o ritmo de atualização dos grandes modelos de Shang Tang também pode ser descrito como "novo a cada dia". "

Dois meses atrás, SenseTime lançou o sistema de modelo grande "Ririxin SenseNova 4.0" e até lançou a primeira API de assistentes do mundo que suporta diferentes chamadas de ferramentas modais antes do OpenAI.

E esta tarde, SenseTime, que é "Rixin", continuou a lançar uma série de modelos e aplicativos generativos de IA baseados em "Rixin".

Ririxin 5.0: atinge ou excede GPT-4 Turbo em avaliações objetivas comuns
Modelo final de 1,8B: melhor desempenho na mesma escala, líder em todas as escalas
Máquina multifuncional de aplicação de nível empresarial: envolvendo finanças, medicina, assuntos governamentais, codificação e outras áreas
Plataforma de geração de vídeo Wensheng que ainda não foi lançada

Soco GPT-4 Turbo, chute DALL·E 3

Na era da IA 2.0, a IA generativa é considerada uma tecnologia importante que promove o avanço da produtividade. Se conseguir alcançar avanços nas capacidades de três camadas de conhecimento, raciocínio e execução, realmente trará um salto. desenvolvimento futuro da produtividade de toda a sociedade.

No mês passado, o CEO da SenseTime, Xu Li, apresentou o ponto de vista acima no GDC de 2024. Na conferência de imprensa de hoje, ele mais uma vez enfatizou que a SenseTime continuará a explorar a arquitetura de três camadas do KRE para grandes capacidades de modelos sob a orientação da lei. de escala. (conhecimento-raciocínio-execução), rompendo constantemente os limites das grandes capacidades do modelo.

Então, quais são os destaques da atualização do recém-atualizado RiRixin SenseNova 5.0 (doravante denominado RiRixin 5.0)?

Adote a arquitetura MoE
Com base no treinamento de tokens de 10 TB, uma grande quantidade de dados sintéticos
A janela de contexto de inferência suporta 200K
Benchmarking abrangente de conhecimento, raciocínio, matemática e código com GPT-4 Turbo

Ririxin 5.0 Esta atualização se concentra principalmente no aprimoramento do conhecimento, matemática, raciocínio e capacidades de codificação e está totalmente alinhada com o GPT-4 Turbo.

Nas principais avaliações objetivas, o RiRiXin 5.0 alcançou ou superou a versão GPT-4 Turbo lançada pela OpenAI na conferência de desenvolvedores no ano passado, e também esmagou quase completamente o recém-lançado Llama 3-70B.

Só conversa e nenhuma prática, na conferência de imprensa, o SenseTime também demonstrou plenamente as reais capacidades do Ririxin 5.0 em linguagem, raciocínio matemático e outros aspectos.

Insira também uma questão dissertativa do vestibular 2022, e compare-a com o GPT-4 Turbo (apenas a versão de novembro do ano passado, a mesma abaixo Pode-se verificar que os resultados gerados pelo Ririxin 5.0 estão livres das restrições dos templates). e rotinas, e ter mais gente De bom gosto, à primeira vista, é um artigo que pode entrar no coração do professor de vestibular.

Diante da tortura dos problemas matemáticos, o GPT-4 Turbo começou a se sentir um pouco sobrecarregado. Não só o processo de cálculo foi complicado, mas os resultados finais também estavam errados.

A diferenciação do setor é um fator chave para que os grandes modelos se destaquem da concorrência.

O Ririxin 5.0, que visa cenários de aplicação localizados, é melhor que o GPT-4 Turbo na compreensão da cultura e do contexto únicos do chinês. Como o GPT-4 Turbo não está familiarizado com o contexto chinês, é naturalmente incapaz de compreender com precisão as regras do jogo local “Eagle Catching Chicken”.

As capacidades multimodais são geralmente consideradas pela indústria como um caminho fundamental para alcançar a AGI.

A julgar pelos resultados dos testes de benchmark, o RiRixin 5.0 também pode competir ferozmente com o GPT-4V, e ambos os lados ganham ou perdem. Na demonstração do caso real, o efeito de gerar um elefante velho em segundos suportado pelo RiRiXin 5.0 é mais natural. Porém, quando o mesmo problema é apresentado a um amigo, pode até haver uma falácia de três pernas.

Com base na imagem de retrato gerada pelo mesmo prompt, a textura da pele gerada pelo Miahua do SenseTime é natural, sem polimento e filtros excessivos da pele, e completa com sucesso o indicador "bonito". Considerando que a base de dados internacional de retratos asiáticos utilizados para treinar modelos de IA é relativamente limitada, tais resultados de comparação são relativamente normais.

Combinada com capacidades multimodais e de análise de dados, a IA pode realizar tarefas mais complexas e avançadas.

RiRiXin 5.0 pode "quebrar" a descrição resumida de imagens longas. Ele pode identificar as informações específicas dos táxis Didi. Também pode calcular as calorias do café da manhã exclusivo da China. O mesmo problema é dado ao GPT-4 Turbo. .

Sempre se diz que a IA irá remodelar o fluxo de trabalho. Desta vez, o SenseTime também demonstrou as capacidades do guaxinim de escritório nesse aspecto.

Insira o recorde de participação de três anos do piloto de F1 Zhou Guanyu no sistema e deixe o tigre apontar um histograma do número de corridas em que participou. Esta tarefa parece simples, mas na verdade também envolve problemas complexos de identificação.

Nas competições internacionais, Zhou Guanyu usa seu nome em inglês para competir. Os grandes modelos tradicionais tendem a ter um desempenho insatisfatório ao lidar com tarefas de reconhecimento que envolvem grafias não convencionais do inglês ou pessoas específicas. Embora o guaxinim de escritório atualizado no Ririxin 5.0 tenha passado por algumas reviravoltas, ele finalmente foi desenhado com sucesso.

Modelo grande de ponta a ponta, apenas rápido e nunca quebrado

No mundo das artes marciais, “a única arte marcial do mundo que não pode ser quebrada é a rápida” enfatiza a importância da velocidade no combate real e, em batalhas de grande escala, este princípio também se aplica.

Com o rápido desenvolvimento da tecnologia de modelos grandes, as necessidades de diferentes cenários de aplicação estão surgindo cada vez mais. Dispositivos terminais, como smartphones, computadores e óculos VR, apresentam requisitos mais elevados para a frequência de uso, velocidade de desempenho, segurança e estabilidade de modelos grandes. .

SenseTime, que se tornou mais pragmático, também lançou oficialmente o modelo final da versão SenseChat-Lite em escala 1.8B nesta conferência.

No teste de benchmark, este modelo final superou de forma abrangente os modelos grandes da mesma magnitude que MiniCPM-2B e Phi-2, e até superou alguns modelos grandes 7B e 13B. Nas palavras de Xu Li, é o melhor desempenho do. mesma escala. Excelente, liderando em todos os níveis.

A pesquisa mostra que a velocidade de leitura mais rápida do olho humano é de cerca de 20 palavras/segundo, e o modelo do lado do dispositivo SenseTime equipado com 1,8B pode atingir uma velocidade de 18,3 palavras/segundo em um telefone celular de médio porte, enquanto o carro-chefe O telefone pode suportar até 78,3 palavras/segundo, tornando-se a velocidade de inferência mais rápida do setor.

SenseTime também lançou uma solução de colaboração dispositivo-nuvem que pode aproveitar as respectivas vantagens do dispositivo e da nuvem por meio de colaboração de julgamento inteligente. Quando a pesquisa na Internet ou cenas complexas precisam ser processadas, elas são transferidas para a nuvem para processamento. o processamento final é responsável por mais de 80%, reduzindo significativamente o custo de inferência.

Em poucos segundos de conversa com “Consulta”, seja gerando um relatório de pedido de licença em poucos segundos ou resumindo um documento de vários milhares de palavras, podemos responder rapidamente.

O modelo de difusão do lado do dispositivo também pode atingir a velocidade de inferência mais rápida do setor. Em uma plataforma convencional, a tecnologia de expansão de imagem LDM-AI do lado do dispositivo tem uma velocidade de inferência inferior a 1,5 segundos, que é 10 vezes mais rápida que a do dispositivo. aplicativos de nuvem concorrentes Ele suporta a saída de 12 milhões de pixels e acima. Imagens de alta definição suportam funções de edição de imagem, como ampliação de imagem proporcional, ampliação de imagem livre e ampliação de imagem rotacional rapidamente no terminal.

Durante a demonstração no local, a equipe conseguiu se expandir à medida que filmava, demonstrando plenamente a capacidade do grande modelo de ponta a ponta de "ir rápido, mas nunca quebrar".

Além disso, de acordo com Xu Li, o modelo ponta a ponta em grande escala é adequado principalmente para seis áreas principais: diálogo diário, perguntas e respostas de bom senso, geração de direitos autorais, gerenciamento de álbum de fotos, geração de imagens e expansão de imagens. -adaptação do dispositivo, permitindo que seja aplicado de forma flexível em uma variedade de cenários e dispositivos diferentes.

Em resposta à crescente demanda por aplicações de IA nos principais setores, como finanças, codificação, assistência médica e assuntos governamentais, a SenseTime também lançou oficialmente uma máquina de aplicação multifuncional de nível empresarial que é econômica, pronto para uso, com dados seguros e produzido nacionalmente, cobrindo finanças, medicina, assuntos governamentais, codificação e outras quatro indústrias principais.

Tomemos como exemplo a plataforma inteligente de consulta e perguntas e respostas do governo. Ela pode não apenas compreender as questões levantadas pelos usuários, mas também fornecer fontes de referência para respostas, melhorando muito o nível de inteligência dos serviços governamentais.

Xu Li apontou que a linguagem natural ainda não pode substituir as linguagens de programação atuais "programadores de IA" não podem concluir projetos complexos de código de nível industrial de forma independente, e o Copilot é uma forma mais adequada.

Portanto, hoje a SenseTime também lançou uma versão leve do modelo de máquina multifuncional em grande escala Little Raccoon Code, que pode suportar uma equipe de P&D de 100 pessoas em uma única máquina. Suporta dados que não saem do domínio, a segurança é garantida e a implantação gratuita pode ser usada imediatamente. Cada unidade custa a partir de 350.000 yuans, oferecendo uma opção econômica para usuários de pequenas e médias empresas.

Desde o início deste ano, o surgimento de Sora permitiu que as pessoas vissem o potencial criativo ilimitado da geração de vídeos com IA. Xu Li também trouxe “Mais uma coisa” na sessão final – três vídeos totalmente gerados por grandes modelos. A próxima plataforma de geração de vídeo Wensheng também tem excelente desempenho em controlabilidade de personagens, controlabilidade de ação e controlabilidade de cena.

A implementação de aplicativos de IA requer um grande modelo de supermercado plug-and-play

Um ano após o lançamento do GPT-4, os grandes modelos ainda estão constantemente acumulando parâmetros para atualizar as classificações. Mas o que realmente preocupa todos na indústria este ano é como integrar grandes modelos por meio de agentes aos fluxos de trabalho de inúmeras empresas e indivíduos.

A GPT Store da OpenAI não se tornou a GPT Store da indústria de IA como esperado, mas muitas necessidades e problemas ainda existem. A falta de uma ponte suave entre as poderosas capacidades dos grandes modelos e a sua implementação em diferentes cenários industriais também representa uma enorme oportunidade.

A plataforma aberta RiRixin da SenseTime é na verdade um grande modelo de supermercado. Por meio de recursos de modelo multimodal, a eficiência das chamadas de API é melhorada e o limite para empresas e desenvolvedores chamarem e personalizarem várias funções de IA é reduzido.

Comparado com os parâmetros de escala do modelo, o SenseTime concentra-se mais na aplicação dos recursos do modelo. Desde os grandes modelos industriais da SenseTime para finanças, assistência médica, assuntos governamentais e codificação, até o modelo do lado do cliente com a velocidade de inferência mais rápida do setor, bem como aplicativos nativos de IA, como Discuss, Ruying, Dayi e Little Raccoon Family , é possível perceber que o SenseTime Tang deseja fornecer uma caixa de ferramentas de IA com interfaces mais ricas que possam executar tarefas complexas em diferentes setores.

O "Relatório de Mercado da Plataforma de Desenvolvimento de IA da China de 2023" divulgado pela Frost & Sullivan, uma conhecida organização de pesquisa, apontou que os grandes dispositivos SenseCore se tornaram o fornecedor líder de infraestrutura de computação em nuvem para as plataformas de desenvolvimento de IA da China. Nos cinco itens de avaliação de compatibilidade de infraestrutura de hardware, cooperação em cadeia industrial, módulo de otimização de treinamento de modelo, capacidades técnicas de anotação inteligente e nível técnico de modelo de pré-treinamento, o SenseTime recebeu as pontuações mais altas.

Reportamos sobre a versão empresarial WPS AI do Kingsoft Office há algum tempo, e um dos grandes modelos com os quais ele coopera é o SenseTime. Kingsoft disse que o SenseTime é excelente em análise de dados, então o WPS AI o chama para lidar com cenários que exigem pensamento científico.

A APPSO chama empresas como a Kingsoft, que não produzem modelos grandes, mas estão determinadas a aplicar modelos grandes, como aplicadores de IA. O papel desempenhado pela SenseTime não é tanto o de fornecedor de grandes modelos, mas sim o de uma loja de departamentos e supermercado que ajuda vários setores a implementar aplicações de IA em larga escala.

O que é uma loja de departamentos? Possui uma ampla gama de linhas de produtos que podem atender às necessidades personalizadas de diversos consumidores, grandes e pequenos. Mais importante ainda, o surgimento de grandes armazéns e supermercados tornou uma grande variedade de produtos mais acessíveis ao público, permitindo que mais pessoas comuns desfrutassem convenientemente de produtos e experiências de alta qualidade de todo o mundo.

E este é o maior valor que o AIGC emergente nos trará no futuro. Sendo uma das maiores invenções da sociedade moderna, diz-se que a empresa está a provocar a quarta revolução industrial, muito provavelmente a partir do seu impacto nas empresas. O falecido Tang Xiaoou, fundador da SenseTime, também disse:

Não existe uma indústria de IA, apenas a indústria de IA+. Enfatiza que a IA precisa de cooperar com as indústrias tradicionais. Esta relação é de combinação e de capacitação, e não de subversão.

Tang Xiaoou mencionou em um discurso que “o financiamento corporativo não é para queimar, mas para fazer grandes coisas”. A “grande coisa” que a SenseTime fará nos próximos dez anos será ajudar milhares de indústrias a implementar o AIGC.

Autor: Li Chaofan, Mo Chongyu

# Bem-vindo a seguir a conta pública oficial do WeChat de Aifaner: Aifaner (ID do WeChat: ifanr). Mais conteúdo interessante será fornecido a você o mais rápido possível.

Ai Faner | Link original · Ver comentários · Sina Weibo |