Chegou a hora de dar à IA uma língua chinesa que seja digna desta era.

Em 2012, Zhang Yiming deu à sua nova empresa o nome de Byte, usando um termo da área da informática.

Este é provavelmente um dos nomes mais convincentes entre as empresas de tecnologia chinesas. Dois caracteres que transmitem uma sensação de tecnologia e poder , praticamente sem nenhum custo cognitivo. Você não precisa entender de computadores; basta saber ler caracteres chineses para perceber que "byte" se refere a uma unidade básica no nível textual.

Limpo, preciso e inesquecível. O fato de um termo poder ser usado como nome de empresa sem parecer deslocado diz muito sobre a qualidade da tradução.

Hoje, a ByteDance é a empresa unicórnio mais valiosa do mundo. Mas se lhe perguntassem: se essa empresa tivesse se chamado "Storage Unit ByteDance" naquela época, ainda pareceria tão natural?

Não ria, é isso que tem acontecido na indústria de IA ultimamente.

Parem de discutir, a melhor tradução chinesa de "Token" sempre esteve aí.

Na semana passada, houve um debate acalorado sobre como traduzir "Token": "Elemento Modelo", "Elemento de Inteligência", "Talismã Espiritual", "Token", "Roubo e Roedura"… As redes sociais frequentemente geram debates acalorados, e cada vez que acontecem, todos acabam defendendo seu ponto de vista.

Cada uma dessas palavras candidatas possui sua própria engenhosidade, mas quando você as analisa em conjunto, percebe que todos estão competindo para ver quem é o mais inspirado e artístico, mas ninguém está fazendo a pergunta mais fundamental primeiro: o que exatamente é um token em termos de tecnologia?

Não se trata de uma unidade de "inteligência" ou de uma unidade de "modelo"; é a menor unidade de processamento de linguagem.

Na verdade, a resposta já estava lá antes mesmo de essa batalha caótica começar.

"Talismã Espiritual" possui uma estética cyberpunk oriental, mas a terminologia não precisa de imagens; precisa de precisão. "Elemento de Inteligência" soa grandioso, mas um token é uma unidade de processamento de linguagem, não uma unidade de "inteligência", então rotulá-lo como "inteligência" é um equívoco. "Token" é o mais absurdo; esta é uma tradução existente de "Token" em segurança da computação, referindo-se especificamente a credenciais de autenticação. Usá-lo indistintamente é como chamar um cartão bancário e uma carta de baralho de mesma coisa. A transliteração "Roubar e Roer" erra completamente o alvo da língua chinesa.

Na literatura acadêmica sobre processamento de linguagem natural (PLN), o token, como a menor unidade de processamento de texto, tem sido traduzido há muito tempo como " unidade lexical ".

As palavras referem-se a atributos linguísticos; os meta-elementos referem-se à granularidade mais pequena. Dois caracteres, um rege a atribuição, o outro rege a hierarquia .

A Apple usou essa tradução. No site chinês da Apple, a página sobre a tecnologia Apple Intelligence afirma "velocidade de resposta lexical".

Vale ressaltar que a equipe de localização chinesa da Apple é conhecida por sua meticulosidade — o AirDrop é chamado de "隔空投送" (Gekong Tousong) e o Live Text de "实况文字" (Shikuang Wenzi). Cada palavra é resultado de repetidas deliberações, com um único objetivo: precisão, concisão e apelo estético na escolha das palavras.

A escolha de "léxico" pela Apple não foi uma decisão impulsiva. Por coincidência, em um programa de notícias da CCTV, "Token" também foi traduzido como "léxico".

Quando a Apple e a CCTV escolheram coincidentemente a mesma tradução para o chinês, isso criou o protótipo de um padrão de facto; só precisava que mais pessoas se manifestassem.

Há um velho ditado no mundo da tradução: uma boa tradução não é uma invenção, mas uma descoberta — descobrir a expressão chinesa que deveria ser assim .

A APPSO acredita que Ciyuan é a única tradução que atende simultaneamente aos três critérios de precisão, fluência e elegância. Ela é precisa (precisão), fácil de entender (fluência) e possui terminologia concisa e um toque clássico (elegância).

Não há realmente nada a discutir neste debate.

"Palavras-chave", a tradução mais improvisada na era da IA.

A questão do token já foi resolvida. A questão do prompt está apenas começando.

O termo padrão da indústria atualmente é "palavra-chave". São três palavras, fáceis de entender e amplamente utilizadas — mas, para ser honesto, esse termo não é suficiente, tem sido insuficiente há muito tempo, e ninguém se preocupou em reconhecer isso abertamente.

O problema com a "palavra-chave" não é que ela esteja traduzida incorretamente, mas sim que inverte a relação de poder no contexto de "dica".

Você escreve um comando do sistema, define os limites de personalidade do modelo, especifica o que ele pode e não pode fazer e define o formato e o tom da saída — isso é chamado de "comando"? Isso é dar ordens.

A lógica implícita de "dica" é que o modelo é o protagonista e as pessoas o lembram silenciosamente à margem. Mas a estrutura de poder real é exatamente o oposto: as pessoas conduzem o modelo. Uma tradução que inverte a relação sujeito-verbo não é apenas uma questão de escolha de palavras, mas sim de estrutura cognitiva .

A palavra "palavra" restringe o escopo. Os prompts modernos são muito mais complexos do que apenas uma ou duas frases. Os prompts do sistema interno da Anthropic podem conter milhares de palavras. Em aplicações RAG de nível empresarial, um único prompt pode preencher um manual de produto inteiro. Descrever isso como uma "palavra" é como descrever um contrato como um "post-it" — você não está errado, mas está limitando o escopo.

Além disso, observe pixels, bytes e palavras — todos são termos de dois caracteres. Termos de dois caracteres transmitem naturalmente uma sensação de concisão em chinês, tornando-os adequados para livros didáticos e documentos padrão nacionais. O termo de três caracteres "palavra-chave", por outro lado, soa mais como uma abreviação coloquial usada na comunidade de tecnologia do que como um nome técnico formal.

Assim como traduzíamos byte como "segmento de armazenamento" e pixel como "ponto de cor da imagem" naquela época, não era que fosse inutilizável, mas sim uma solução de compromisso.

"Palavras-chave" são uma das traduções mais deficientes na era da IA .

Prompt "Wenling"

A sugestão da APPSO é que "Prompt" seja traduzido como "文令" (wenling ).

Antes de apresentar as razões, vamos primeiro falar sobre como essa palavra foi deduzida; o próprio processo é o melhor argumento.

Nossa ideia inicial foi "句令". 句 significa frase ou expressão; 令 significa comando ou instrução. Possui uma forte estética clássica e soa poderoso e ressonante.

No entanto, ao analisar mais detalhadamente, percebe-se uma falha: a palavra "frase" implica que "instrução" seja "uma única frase". Na realidade, uma instrução pode ser uma palavra, três parágrafos ou um comando de sistema de 5.000 palavras — a palavra "frase" impõe uma restrição de limite inexistente.

Se substituirmos por "文" (wen), o problema desaparece.

Um único caractere é uma palavra. Uma frase é uma expressão. Um parágrafo é um trecho. Um artigo inteiro é um texto. Não importa o que o desafio exija, a "escrita" consegue lidar com tudo isso, sem qualquer receio de limites.

Assim, ficou decidido que o Prompt seria equivalente a um pedido por escrito .

Texto — palavras, texto, artigos. O veículo de um estímulo é sempre o texto, seja uma conversa informal ou as instruções programadas de um agente; sua forma física é o texto. "Texto" não é um enfeite, mas o nome mais direto para a forma essencial de um estímulo.

Comando — instrução, instrução. A função do Prompt é direcionar o modelo para a execução. Digite um texto e o modelo gera, raciocina e age de acordo com a intenção. "Comando" captura precisamente essa ação — a pessoa dando ordens ao modelo.

Texto = O que é (forma). Ordem = O que faz (função).

As duas palavras, uma que rege a forma e a outra a função, cada uma com seu próprio papel, juntas definem perfeitamente "pronto".

Pixels, bytes, palavras e códigos textuais: um caminho das máquinas aos humanos.

Se analisarmos o "documento oficial" dentro de um contexto mais amplo, veremos algo que fará seu coração disparar:

  • Pixel → A menor unidade do mundo que o olho consegue ver.
  • Byte → A menor unidade de armazenamento de uma máquina.
  • Tokens → A menor unidade que um modelo utiliza para compreender a linguagem.
  • Um prompt é a menor unidade em um modelo conduzido por humanos.

Todas as quatro palavras compartilham a mesma lógica de formação: atributo portador + atributo funcional .

Pixel – imagem + elemento.

Byte – palavra (texto) + seção (fragmento).

Léxico – palavra (palavra) + lem (unidade original).

Wenling – Wen (texto) + Ling (instrução).

Os pixels são o que mais se assemelha às máquinas, e o texto, ao ser mais próximo dos humanos. Por trás disso, existe uma linha do tempo evolutiva oculta: da percepção ao armazenamento, da compreensão à condução — esse é o processo completo pelo qual os humanos gradualmente injetam suas intenções nas máquinas .

Por outro lado, se inserirmos a "palavra-chave" nesse sistema de coordenadas, ela ficará deslocada. Ela descreve uma função, não uma localização, e não está na mesma dimensão que as outras três palavras porque sua lógica de criação de palavras se desviou desde o início.

Vamos evitar repetir os arrependimentos da "inteligência artificial".

Claro, algumas pessoas podem dizer que não importa o nome, desde que todos consigam entender.

Anos atrás, as pessoas provavelmente usavam termos semelhantes para descrever "pixel" e "byte". Mas hoje, essas duas palavras se tornaram vocabulário comum. Sua mãe pode não saber a grafia em inglês de "pixel", mas com certeza sabe o que "50 milhões de pixels" significa na câmera de um celular.

Uma boa tradução terminológica é infraestrutura cognitiva . Ela determina se um conceito técnico consegue penetrar nos círculos profissionais e alcançar o entendimento do público em geral.

A janela para a tradução de terminologia na era da IA ​​não permanecerá aberta para sempre. Uma vez que uma palavra se enraíza nas redes sociais, nos livros didáticos e nas descrições de produtos, é muito difícil mudá-la.

Ainda não é tarde demais.

Veja bem, a conotação negativa de "hacker" está completamente consolidada na cultura chinesa, então precisamos criar um termo separado, "white hat" (chapéu branco), para contornar isso.

O próprio termo "inteligência artificial" não é ideal — "artificial" implica naturalmente "falso" ou "simulado", mas essa tradução já está firmemente estabelecida e ninguém tem a capacidade de mudá-la . Os termos "computador" e "sistema de computador" ainda não são unificados hoje, e quem sabe por quantos anos mais esse debate continuará.

Felizmente, os tokens e as "palavras-chave" ainda não estão completamente consolidados. Eles ainda circulam em grupos do WeChat e nas redes sociais, mas ainda não foram incorporados a padrões nacionais nem incluídos em livros didáticos. Agora é o momento de propor "elementos de palavras" e "códigos textuais" com o menor custo e a menor resistência possível.

Agora, os "tokens" estão sendo incluídos nos contracheques como parte da remuneração e dos benefícios. Espere mais dois anos, até que as "palavras-chave" apareçam em questões de interpretação de texto em vestibulares e em títulos de cargos em contratos de trabalho — aí será tarde demais para falar sobre elas.

A APPSO não quer vivenciar outro arrependimento semelhante ao da "inteligência artificial", onde claramente existem soluções melhores, mas ninguém se manifesta quando a oportunidade ainda está disponível .

Elementos lexicais e semântica: Por favor, fale conosco.

Um token é chamado de elemento de palavra. Uma palavra define sua forma. Um elemento define sua raiz.

O Prompt é chamado de ordem escrita. "Wen" significa definir o significado e "Ling" significa definir a essência.

Esta é a proposta da APPSO, e também o convite da APPSO .

Não estamos tentando definir termos. Os termos são definidos por todos que os escrevem em artigos, os mencionam em apresentações ou os utilizam em materiais didáticos. O que fazemos é simplesmente apresentar uma opção melhor antes que a oportunidade se esgote.

Os pixels permitem que as máquinas exibam imagens para os humanos.

Os bytes permitem que os dados fluam entre máquinas.

As unidades lexicais permitem que o modelo compreenda a linguagem humana.

O documento afirma que a vontade humana impulsiona a inteligência das máquinas.

Na próxima vez que você abrir essa caixa de diálogo, anote o que você quer que a IA faça —

Cada palavra que você escreve é ​​uma ordem literária .

#Siga a conta oficial do iFanr no WeChat: iFanr (ID do WeChat: ifanr), onde você encontrará conteúdo ainda mais interessante o mais breve possível.