De Doubao a Kimi, por que todos os produtos de IA fazem plug-ins de navegador?
Meu navegador já está cercado por vários plug-ins de IA.
Eles não apenas ocupam a barra de ferramentas no canto superior direito, mas também se reúnem na janela flutuante no canto inferior direito, deixando os minimalistas nervosos.
Desde a Guerra dos Cem Modelos, a principal contradição de um trabalhador maduro tornou-se a contradição entre a boa necessidade de aumentar a produtividade e a dificuldade de escolher um assistente de IA.
Deste ponto de vista, é necessário encontrar outra forma de fazer plug-ins. O tempo que uso depende de qual IA toma a iniciativa de vir até mim.
Funções mais leves, companheirismo mais amplo
Os plug-ins atuais do navegador AI podem ser divididos em três categorias.
Uma categoria são os produtos complementares baseados em seus próprios modelos grandes.
Em 8 de julho, o assistente inteligente Kimi lançou um plug-in de navegador e escrevemos um artigo de experiência o mais rápido possível . Antes, desenvolvedores terceirizados também faziam o plug-in "Kimi Copilot", mas desta vez foi oficialmente implementado pessoalmente.
Por que lançar o plug-in? O fato é que não podemos fazer tudo no site principal do Kimi com diálogo em tela cheia, mas o plug-in permite que você use funções de IA a qualquer momento em qualquer página da web.
Imagine que ao navegar em um site de notícias para ler um artigo, não entendemos a terminologia nem reconhecemos os nomes das pessoas. Ao escrever em um documento online, não temos certeza sobre determinada questão, mas não queremos. interromper o estado atual e mudar para outras páginas para pesquisar.
Neste momento, o plug-in Kimi pode pesquisar instantaneamente, responder perguntas e resumir o texto completo… Não importa o que aconteça, o plug-in também desempenha um papel na atração de tráfego, permitindo que você acesse o site principal do Kimi com um clique.
O herói vê a mesma coisa. O concorrente de Kimi, Doubao, lançou plug-ins anteriormente. Ele pode fazer tudo o que Kimi pode fazer. Em diferentes cenários de leitura e criação, as funções do plug-in Doubao são ligeiramente diferentes.
Selecione uma passagem na página da web e o plug-in Doubao suporta pesquisa, explicação, questionamento, tradução de IA, etc.
Ao abrir um documento online e selecionar um parágrafo, além das funções acima, o plug-in Doubao também suporta correção gramatical e ajuste de tom.
O que considero mais prático são, na verdade, as duas funções de plug-in do Doubao que estão à frente das do Kimi.
Uma delas é o resumo do vídeo, mapa mental, classificação da linha do tempo e funções de salto, que são aplicáveis ao YouTube e ao Bilibili. O plug-in Kimi ainda não pode resumir o conteúdo do vídeo.
Há também uma função de coleta. Quer você encontre momentos interessantes, atualizações do Weibo ou veja um parágrafo benéfico em um artigo, você pode salvá-lo no site principal do Doubao com um clique e anexar o URL original para facilitar a visualização mais tarde. Para fazer produtos, você ainda precisa olhar os bytes.
A segunda categoria de plug-ins de navegador de IA são produtos “shell” baseados em modelos existentes, dos quais Monica é o representante.
Este é um plug-in baseado em modelos grandes como GPT-4o e Claude 3.5, e suporta mecanismos de busca como Google e Bing.
Podemos conversar com ele e deixá-lo pesquisar, escrever, traduzir e interpretar textos selecionados, resumir PDFs, páginas web, e-mails, vídeos do YouTube…
Resumindo, um assistente de IA completo que pode conversar, pesquisar, traduzir e resumir, conecta vários produtos de IA com plug-ins e obtém uma experiência "tudo em um".
No entanto, em comparação com os plug-ins gratuitos Kimi e Doubao, Monica tem um limite de cota e requer uma assinatura para desbloquear mais recursos. Pensando na melhor das hipóteses, é mais barato do que assinar vários produtos de IA separadamente.
Existe também um tipo de plug-in de navegador de IA que se enraíza na trilha vertical e atende às necessidades dos pequenos e bonitos. Do ponto de vista dos nossos editores de tecnologia, existem dois mais usados.
O primeiro é o Tongyi Listening, que realiza a conversão de fala em texto em várias páginas da web e suporta legendas bilíngues em tempo real. Após a gravação, você pode resumir o conteúdo e extrair pontos-chave, o que é muito adequado para acompanhar conferências de imprensa.
A segunda é a tradução imersiva, que realiza tradução bilíngue de diversas páginas da web, vídeos e até PDFs. Ao contrário do Google Translate, que cobre o texto original, a experiência de navegação é melhor e é mais conveniente verificar informações.
Ao mesmo tempo, a Immersive Translation lançou uma função de tradução especializada para diferentes cenários, como sites de jogos e mídias sociais – essencialmente uma série de palavras-chave cuidadosamente projetadas. Não precisamos copiar o texto para o ChatGPT, escrevemos nossas próprias palavras imediatas e deixamos a IA traduzi-lo para nós em um determinado tom e identidade.
A equipe Kimi diz que o plug-in Kimi é como uma “pesquisa leve” que ajuda a resolver pequenos problemas de fragmentação. Esta frase também se aplica ao plug-in de navegador de outros produtos de IA. Os plug-ins são uma tentativa leve de implementar IA.
Não importa se você está lendo, escrevendo ou assistindo vídeos, não importa qual página da web você abra, um ou mais deles podem desempenhar um papel de apoio nas atividades mentais humanas, compensando os detalhes e imperfeições desconfortáveis da experiência anterior de navegação na Internet.
Plug-ins com uma sensação de presença muito forte às vezes podem ser uma distração.
No entanto, assim como o grande modelo do ano passado e a pesquisa de IA no primeiro semestre deste ano, a competição entre plug-ins também é acirrada, há funções sobrepostas e até brigas já começaram.
Depois de serem adicionados à barra de ferramentas, os plug-ins de IA basicamente têm forte capacidade de acompanhamento e esperam mostrar sua presença aos usuários.
Eles estão ao seu alcance e podem ser invocados com teclas de atalho. Eles aparecem como botões flutuantes no canto da tela e como barras laterais no lado direito das páginas da web. você com serviços.
▲ Selecione a frase e Monica, Doubao e Kimi aparecerão.
No entanto, eles também podem persistir. Se o Kimi exibe um botão flutuante e se o botão aparece após você selecionar o texto é opcional. Doubao e Monica também suportam botões ocultos.
Plug-in de IA de uso geral com foco na produtividade, possui funções amplas e abrangentes e atende basicamente às seguintes necessidades: explicação sublinhada, criação assistida, resumo de conteúdo…
As principais necessidades dos usuários para navegar na Internet podem ser apenas algumas. Se forem atendidas por vários plug-ins de IA ao mesmo tempo, será difícil escolher. Entre eles, Doubao e Monica têm maior probabilidade de se cruzarem.
Assista aos vídeos do YouTube, Doubao e Monica irão ajudá-lo a resumir os destaques e o cronograma.
Ao usar o Google para buscas tradicionais, Doubao e Monica responderão às perguntas no lado direito da página de resultados. Por exemplo, se você pesquisar no Google por “Introdução ao Doubao”, Doubao se apresenta e Monica apresenta uma iguaria chamada Doubao.
Porém, o Doubao tem mais uma função que a Monica: se você selecionar um link com o mouse, mas não clicar nele, o Doubao também resumirá o conteúdo para você, e então você poderá abrir o link para ver os detalhes.
Quanto à criação auxiliar, é ainda mais exagerada. Em quase todas as caixas de entrada, incluindo ChatGPT, Weibo e Douban, o “ponto roxo” da Mônica aparecerá.
Após clicar nele, você verá o “Assistente de Redação”. A IA perguntará se você precisa escrever algo, seja uma carta de apresentação ou um e-mail. Após a geração do conteúdo, você pode inseri-lo diretamente. a caixa de entrada.
Da mesma forma, Doubao também possui uma função "Escreva para mim". Insira um tópico e ajude a gerar direitos autorais nos estilos de Xiaohongshu, Douyin, etc., e insira-o na caixa de entrada com um clique.
Os antigos diziam que onde quer que haja um lugar para beber de um poço, pode-se cantar Liu Ci. Agora esta frase pode ter uma versão para Internet: qualquer espaço em branco onde o copywriting precise ser gerado pode ficar com uma obra-prima gerada por IA.
Mas talvez queiramos apenas escrever uma reclamação ou conversar com o ChatGPT. Neste momento, o ícone parece um pouco intrusivo e precisa que você o feche manualmente.
Esses plug-ins altamente performáticos são um pouco como o mascote da Microsoft “Big Eye Clip” que foi usado para ensinar novos usuários a usar o Office por volta de 2000. Naquela época, quando você criava um novo documento ou digitava “Querido” para escrever uma carta, a pasta do olho grande aparecia de repente sem qualquer explicação.
O problema com os clipes para olhos grandes é que eles só podem ajudar até certo ponto. Eles perderam o emprego depois que o Office XP foi lançado. A Microsoft acredita que o produto em si é simples e fácil de usar.
O problema com os plug-ins é que eles são úteis, mas suas funções são semelhantes. Se não forem estritamente necessários, ocasionalmente parecerão "intrusivos".
Assim como antes, perguntei a um colega se ele poderia recomendar um plug-in útil para tradução do YouTube. Ele não conseguiu dar uma resposta no momento, porque havia muitos plug-ins semelhantes e ele os esqueceria se não os fixasse na barra de ferramentas.
A IA tornou-se a porta de entrada para a informação e os navegadores estão disponíveis onde quer que você não saiba como clicar.
Já existe uma proliferação de plug-ins derivados para produtos de IA. Ao mesmo tempo, também existem plug-ins de terceiros que servem produtos de IA.
Um deles é o plug-in AI Home Tab do Google. A função é muito simples, mas o conceito é muito interessante.
Ele pode definir seu site principal de IA favorito como a página inicial do navegador e você também pode alterá-lo de volta para a página inicial padrão.
A principal função deste plug-in é mudar sutilmente nossos hábitos online.
Para se tornar o mecanismo de busca padrão do Safari, o Google paga à Apple uma taxa enorme todos os anos. Pode-se ver que o "padrão" é tão poderoso quanto a gravidade no desenvolvimento dos hábitos do usuário.
Se o nosso portal de informações se transformar diretamente em várias ferramentas de pesquisa de IA, talvez nos tornemos cada vez mais habituados e melhores na comunicação com a IA através da caixa de pesquisa para obter respostas, em vez de inserir o URL no Google para encontrar a pesquisa de IA.
No entanto, você ainda precisa ter cuidado com a ilusão da IA, e um plug-in chamado SeekAll nasceu para esse propósito.
Este é um assistente de múltiplas telas do navegador que suporta a abertura de vários mecanismos de pesquisa com um clique e a comparação dos resultados da pesquisa. Atualmente, suporta até três pesquisas ao mesmo tempo.
Com mais plug-ins e entradas mais diretas, no futuro, nossa experiência on-line poderá realmente se tornar “não clicar em lugar nenhum”.
O que significa este termo técnico? Como otimizar as frases deste documento? Esta legenda do YouTube pode ser transcrita em texto? Você pode esperar que a IA apareça e o ajude a responder. O plug-in Beanbag pode até resumir o podcast Little Universe recentemente.
Por outro lado, da perspectiva de uma startup de IA, desenvolver plug-ins é um pouco como atravessar um rio tateando as pedras. Embora os produtos de IA estejam surgindo incessantemente, eles ainda buscam cenários mais segmentados, acumulando mais dados do usuário e treinando modelos mais poderosos.
Os navegadores são uma ferramenta essencial para navegarmos na Internet. Para explorar quais necessidades de alta frequência dos usuários podem ser atendidas pela IA, plug-ins de navegador que podem ser integrados de forma flexível em páginas da web podem ser uma forma de teste ideal.
Não estabeleça limites primeiro e depois veja mais possibilidades.
No futuro, não há uma definição clara de como será a interface do usuário ao navegar na Internet e como iremos interagir com a IA. Mas pequenos passos e iterações rápidas de plug-ins nos aproximam de um navegador habilitado para AIGC.
# Bem-vindo a seguir a conta pública oficial do WeChat do aifaner: aifaner (WeChat ID: ifanr). Mais conteúdo interessante será fornecido a você o mais rápido possível.