Eu terminei este artigo com IA, e o editor-chefe disse: bem feito, não vou usá-lo amanhã
A maioria dos trabalhadores literários e artísticos, como aqueles que escrevem, desenham e compõe, correm maior risco de desemprego – todas as ilustrações neste artigo são criadas pela IA. Mas o texto é escrito por mim, como substituição falsa.
Uma série recente de belas pinturas criadas pelo Dall-E 2 da Open AI, bem como textos escritos em conjunto com os modelos Microsoft Florence e GPT-3 da OpenAI, provam que a IA às vezes pode parecer melhor que os humanos. Não é demais chamar este ano de o primeiro ano da criação literária e artística da IA. Com um determinado texto ou imagem, a IA pode produzir obras que estão além da imaginação, ousadas, interessantes e razoáveis. De fato, não falta "época -fazer" significado.
▲Mapa de condução espacial de astronautas de Dall-E 2
Esses avanços são construídos em um enorme "modelo fundamental" que oferece recursos de IA que seus criadores não poderiam ter previsto. Os modelos de inteligência artificial do passado tinham a “rugosidade” de uma oficina manual. Através de ajustes de longo prazo, as capacidades potenciais do "modelo fundamental" tornaram-se uma tendência de desenvolvimento visível a olho nu.
A inteligência artificial está prestes a entrar na era da produção em massa industrial.
Modelo grande, trabalhadores demitidos fabricam máquinas
Em maio, foi lançada a versão beta da ferramenta de desenho de IA Midjourney, e até a revista "The Economist" não poderia deixar de "experimentar cedo". A ilustração de Midjourney para a reportagem da Economist parece cheia de inspiração e tem um forte estilo modernista – não esqueça, a foto é baseada em um conceito bem abstrato, afinal, o conteúdo da matéria não é "uma mulher segurando um gato A" é uma narrativa específica.
▲ Ilustração de Midjourney para o relatório The Economist
Um dos desenvolvedores do Midjourney é Somnai, o criador do Disco Diffusion que desenvolveu o YouTuber Quick-Eyed Sky. Esses aplicativos são todos "você diz que eu desenho", ou digite palavras-chave e gere imagens. Disco Diffusion é muito popular, mas comparado com DALL-E e Midjourney, tem um pequeno "limiar". Você mesmo tem que ajustar o código e os parâmetros. As aplicações mais populares são do tipo "tolo", basta escrever algumas palavras.
▲ Um vídeo feito por Somnai com Disco Diffusion
Tocar "You Say I Draw" é viciante. Musk, Trump, Scarlett Johansson e Marilyn Monroe no Twitter estarão todos "quebrados", todos com aparência de "Rua do Pesadelo". O "Domo Master Painter" lançado no Dia das Crianças da comunidade doméstica de Dimo, quando eu deliberadamente "dificultei as coisas", a imagem dada ainda é muito interessante.
▲ Pedi a Domo que desenhasse uma citação de Paul Krugman, ganhador do Prêmio Nobel de Economia de 2008, "Em uma economia de mercado, seus gastos são minha renda"
O quão bem a saída funciona depende inteiramente do modelo de IA. Construir um modelo de IA é equivalente a uma corrida armamentista de luxo.
Os "modelos fundamentais" atualmente disponíveis incluem o GPT-3 da OpenAI, com parâmetros próximos de 200 bilhões e um custo de mais de 10 milhões de dólares; o Switch Transformer do Google, com parâmetros superiores ao GPT-3; Microsoft e Nvidia têm modelos MT-NLG, com parâmetros acima de 500 bilhões; o modelo Pangu da Huawei está posicionado como um modelo de pré-treinamento do idioma chinês, e a escala de parâmetros também atinge 100 bilhões.
Quando o GPT-3 "nasceu" pela primeira vez em 2020, foi nomeado "Máquina de fabricação de trabalhadores demitidos". Ele passou facilmente no teste de inteligência artificial – o "Teste de Turing", e todas as perguntas foram respondidas sem problemas. Texto, tradução, design, cálculo e outros aplicativos desenvolvidos com base no modelo GPT-3 podem substituir as operações humanas.
Existe até uma pessoa que quer que o GPT-3 escreva um pequeno artigo sobre "A importância de escovar o Twitter". é estranheza de Yin e Yang. Ele disse que o Twitter era "o software social de todos, cheio de ataques pessoais".
▲ Obtenha esta imagem original de "Lunch on the Grass" (Monet), Dall-E 2 criará uma série de imagens com estilos semelhantes e detalhes diferentes de acordo.
▲A recriação de IA de "Almoço na grama" pode teoricamente ter quadros ilimitados
As vantagens do modelo de pedra angular são óbvias. Em primeiro lugar, os grandes parâmetros e a grande quantidade de dados de treinamento não apenas reduzirão o benefício marginal, mas melhorarão muito os próprios recursos e avanços da IA na computação. O segundo é o método de aprendizado de pequena amostra usado.A IA não precisa "aprender do zero" repetidamente, mas pode fragmentar e selecionar os dados necessários para executar automaticamente.
O modelo de pedra angular é equivalente à "tecnologia universal". Na década de 1990, os historiadores econômicos identificaram "tecnologias de uso geral", como motores a vapor, prensas de impressão, motores elétricos, etc., como os principais fatores que impulsionam o desenvolvimento a longo prazo da produtividade. "Tecnologia geral" inclui recursos como iteração rápida de tecnologias centrais, ampla aplicabilidade em todos os setores e efeitos indiretos, estimulando assim a inovação contínua em produtos, serviços e modelos de negócios.
Os modelos de pedra angular de hoje já possuem as mesmas características.
Rede neural + aprendizado autossupervisionado, habilidades incríveis
Hoje, mais de 80% da pesquisa de IA está focada em modelos fundamentais. Como a Tesla também está construindo um enorme modelo de pedra angular para direção autônoma.
Para entender o que Li Feifei, reitor do Instituto de Inteligência Artificial da Universidade de Stanford, chamou de "mudanças encenadas na inteligência artificial", devemos saber como o modelo fundamental é diferente dos modelos anteriores de inteligência artificial.
Todos os modelos de aprendizado de máquina hoje são baseados em “redes neurais” – programação que imita a maneira como as células cerebrais interagem. Seus parâmetros descrevem os pesos das conexões entre os neurônios virtuais, e o modelo é "treinado" para produzir o conteúdo específico que o desenvolvedor deseja, por meio de tentativa e erro nos pesos.
▲ A comparação de nitidez de Dall-E e Dall-E 2
Nas últimas décadas, as redes neurais estão em fase experimental e nada foi implementado. Foi somente no final dos anos 2000 e início dos anos 2010 que o poder computacional dos supercomputadores aumentou e a Internet forneceu dados de treinamento suficientes. mesma imagem em fotos diferentes. Rosto e outras "tarefas impossíveis" antes.
Especialmente na década de 2010, as máquinas de aprendizado de máquina e mineração também usaram GPUs. A característica da GPU é que ela possui milhares de processadores de fluxo, que podem realizar um grande número de operações gerais repetidas, e não é caro, o que é muito mais barato do que iniciar um supercomputador uma vez.
A virada veio em 2017. Naquela época, o modelo BERT do Google usava uma nova arquitetura, que não mais processava dados "convencional" e sequencialmente, mas adotava um mecanismo para "visualizar" todos os dados ao mesmo tempo.
Especificamente, modelos como o BERT não são treinados com bancos de dados pré-rotulados, mas usam a tecnologia de "aprendizagem auto-supervisionada". À medida que o modelo vasculha incontáveis bytes, ele pode encontrar palavras ocultas por conta própria ou adivinhar o significado com base no contexto, assim como as questões do exame que crescemos fazendo! Todo o novo método está muito próximo do mecanismo de aprendizado do cérebro humano, e você pode encontrar o que está interessado em um piscar de olhos, sem ter que processar e digerir palavra por palavra.
▲Dall-E 2 adiciona um pato de borracha rosa com base na imagem à esquerda (sem vestígios de PS)
Depois de bilhões de ciclos de adivinhar-comparar-melhorar-adivinhar, os modelos geralmente são brilhantes e talentosos.
Não limitado ao texto, as redes neurais e as técnicas de aprendizado autossupervisionado podem ser aplicadas além da linguagem e do texto, incluindo fotos, vídeos e até bancos de dados macromoleculares. Como o modelo gráfico DALL-E, o palpite não é a próxima combinação de letras, mas o próximo cluster de pixels.
As aplicações desenvolvidas com base em grandes modelos também são variadas. Além da série de aplicativos de criação literária e artística mencionados acima, o DeepMind do Google lançou o Gato, que pode jogar videogame, controlar braços robóticos e escrever. O "modelo mundial" de Meta parece estar encalhado, originalmente destinado a fornecer contexto para o Metaverso.
coisas legais ou armadilha de turing
O boom dos modelos básicos é certamente uma boa notícia para os fabricantes de chips. A Nvidia, que está ativamente envolvida na fabricação de modelos fundamentais, já é uma das designers de semicondutores mais valiosas do mundo, com um valor de mercado de US$ 468 bilhões.
As startups também devem aproveitar isso. A Birch AI grava automaticamente as chamadas relacionadas à saúde; a Viable a usa para filtrar o feedback dos clientes; o Fable Studio usa a AI para criar histórias interativas; e no Elicit, as pessoas confiam em ferramentas de AI para encontrar suas perguntas de pesquisa em trabalhos acadêmicos.
▲ Midjourney usa um estilo de colagem
As grandes empresas têm sua própria maneira de jogar. O funcionário da IBM disse que o modelo fundamental pode analisar grandes quantidades de dados corporativos e até encontrar pistas sobre custos de consumo a partir de leituras de sensores no chão de fábrica. O chefe do projeto de inteligência artificial da Accenture prevê que em breve surgirão "modelos industriais fundamentais", fornecendo serviços de análise mais precisos para clientes tradicionais, como bancos e montadoras.
Embora o futuro seja brilhante, e a pintura de IA também tenha estimulado o entusiasmo do público, muitos pesquisadores ainda recomendam "dar um passo atrás". Algumas pessoas acreditam que o big data em que o grande modelo se baseia não é totalmente funcional, e parte dele é apenas "repetição aleatória"; ao mesmo tempo, alguns problemas tendenciosos causarão a "ilusão" do modelo. No início do ano passado, quando o GPT-3 respondeu à pergunta cloze "Dois XXX (religiosos) entraram…", havia uma probabilidade superior a 60% de preencher "muçulmano".
Na "Comunidade Dimo", quando o "Domo Master Painter" é atualizado, a página inicial ocasionalmente vê usuários enviando instruções indecentes para a IA. O CEO Lin Zehao disse a Aifaner que geralmente a triagem de palavras-chave em segundo plano e a triagem manual serão realizadas ao mesmo tempo . , para garantir o funcionamento saudável da comunidade. Ferramentas de pintura de IA, como Dall-E 2, também estão enfrentando a mesma situação – o mesmo destino que o anterior Microsoft Xiaobing "perfumado na boca".
▲Mulher e gato, que estilo de pintor famoso esse Midjourney usou? Por favor, deixe uma mensagem na área de comentários, e você será recompensado por respostas corretas
Erik Brynjolfsson, economista da Universidade de Stanford, teme que uma obsessão coletiva por grandes modelos com capacidades semelhantes às humanas possa facilmente levar a sociedade como um todo a uma “armadilha de Turing”. Os computadores fizeram muitas coisas que os humanos não podiam fazer, e agora fazem o que os humanos podem fazer – melhor do que os humanos, mais pessoas estão perdendo seus empregos, riqueza e poder estarão mais concentrados e a desigualdade aumentará. grande.
Suas preocupações eram justificadas. Modelos em grande escala custam muito dinheiro e as pessoas comuns não podem investir neles. Os apoiadores por trás deles são gigantes da tecnologia ou países. O modelo de pedra angular se tornará a plataforma básica para uma série de serviços, e a plataforma também tem um "efeito Mateus": o vencedor leva tudo, mesmo que não tudo, não sobra nada para os outros.
▲ Internautas usam as imagens criadas por Midjourney, cheias de estilo sci-fi
Os artistas realmente amam essas "coisas legais". O compositor britânico Reeps One (Harry Yeff) alimenta o modelo com um ritmo de metrônomo por horas, e o modelo aprende a responder ritmicamente à sua voz. Ele prevê que "muitos artistas usarão essa ferramenta para fazer melhor o seu trabalho".
Como repórter, também adoro o aplicativo de transcrição de voz do iFLYTEK. No passado, compilar duas horas de gravações de áudio de entrevistas com pessoas era suficiente para fazer um adulto mentalmente saudável desmaiar na hora. Agora é só esperar que o software produza um documento de texto, você não pode usá-lo diretamente como uma "conversa", mas basta vê-lo como um material.
Recentemente também tenho pesquisado como usar o GPT-3 para treinar meu próprio modelo de escrita. Talvez a coluna "Futuro Próximo" da próxima quinta-feira seja escrita pela minha IA.
#Bem-vindo a prestar atenção à conta oficial do WeChat de Aifaner: Aifaner (WeChat: ifanr), conteúdo mais interessante será trazido para você o mais rápido possível.