A noite com mais volume! A versão do ChatGPT do Google está aberta, a Nvidia lançou uma placa gráfica de bomba nuclear … Quando acordo, a IA mudou novamente
O "momento iPhone" da IA chegou
Na recém-concluída conferência Nvidia GTC 2023, o CEO da Nvidia, Huang Renxun, repetiu esse ponto de vista três vezes.
Como entender?
A tecnologia de tela multitoque do iPhone criou um novo modo de interação da interface do smartphone, que deu origem à Internet móvel.
O surgimento de superaplicativos de IA, como ChatGPT e Stable Diffusion, marca a maturidade da computação acelerada e da tecnologia de IA. A IA está penetrando em todas as esferas da vida a uma velocidade sem precedentes e promovendo uma nova revolução industrial.
Após o desenvolvimento contínuo da tecnologia de IA nos últimos anos, o poderoso poder de computação e os modelos avançados fornecem uma plataforma de aplicativo adequada para IA, levando vários fabricantes a reimaginar seus produtos e modelos de negócios, bem como a velocidade das iterações de atualização.
Ontem à noite, Nvidia, Microsoft, Google, Adobe e outros fabricantes lançaram seus respectivos serviços de IA quase ao mesmo tempo. A tendência de perseguir uns aos outros parece transmitir a mesma ansiedade:
"Nesta era de grande IA, se você não quer ser subvertido pelos outros, você deve primeiro subverter os outros."
Como a IA mudará nossas vidas? Depois de assistir a esta "Noite Mais Volumosa do AIGC", você pode ter uma sensação mais profunda.
Nvidia está trazendo IA para todos os setores
A Nvidia trouxe muitas "novas atividades" atraentes na conferência anual do GTC.
Por exemplo, lançou uma tecnologia de fabricação de núcleo assistida por IA chamada CuLitho, que abriu caminho para o processo de 2 nm; cooperou com montadoras como Lotus, Mercedes-Benz e BMW e usou o Omniverse para construir linhas de produção digital.
Mas quando se trata do conteúdo mais atraente de toda a conferência GTC, tem que ser a nova placa gráfica lançada pela Nvidia – a H100 NVL com GPU dupla NVLink.
H100 NVL é uma placa gráfica especialmente projetada para ChatGPT, que requer enorme poder de computação.H100 NVL possui uma memória HBM3 exagerada de 188 GB (94 GB por cartão), que atualmente é o maior cartão de memória lançado pela Nvidia.
Um modelo de linguagem grande como o GPT consome muitos recursos de memória. Em teoria, um modelo GPT com centenas de bilhões de parâmetros pode preencher rapidamente uma placa de vídeo H100.
Comparado com o HGX A100 para processamento GPT-3, um servidor padrão usando quatro pares de H100s e dual-GPU NVLink é 10 vezes mais rápido, a "bomba nuclear" H100 NVL é ideal para implantação em larga escala de modelos de linguagem como ChatGPT.
Outro grande trabalho da Nvidia é mover o "ChatGPT mesmo modelo" para a nuvem e abri-lo ao público.
A operação do ChatGPT depende principalmente do supercomputador DGX composto por A100 ou H100. A Microsoft gastou centenas de milhões de dólares para comprar dezenas de milhares de placas gráficas A100 para formar a plataforma de computação em nuvem Azure.
Para reduzir o custo de implantação de modelos grandes para os usuários, a Nvidia lançou o serviço DXG Cloud. A partir de $ 36.999 por mês, você pode obter um supercomputador em nuvem composto por 8 placas gráficas H100 ou A100 para concluir facilmente tarefas de computação de alta carga.
Em 2016, Lao Huang entregou pessoalmente o primeiro supercomputador DGX para a OpenAI. Sete anos depois, o maior poder de computação de IA tem a oportunidade de entrar em todas as empresas por meio do DXG Cloud, realizando tarefas que antes eram impossíveis.
Não é difícil imaginar que aplicativos avançados como o ChatGPT, que podem melhorar a comunicação humana e a eficiência do trabalho, continuarão surgindo, trazendo mais comodidade e surpresas para nossas vidas.
Transformando pedra em ouro, a segunda geração do Runway permite gerar todos os tipos de filmes de grande sucesso em uma frase
Sempre houve um ditado popular na Estação B: os vídeos não podem ser postados, então isso é verdade. Mas agora os vídeos podem não apenas ser P, mas também podem ser gerados diretamente com IA do zero, sem pintores, fotógrafos ou pós-processamento. Contanto que você insira um parágrafo de texto no Runway, ele retornará um vídeo curto e chocante.
No início, o Runway era uma ferramenta auxiliar de pós-produção. Embora usasse o poder mágico da inteligência artificial, o que conseguia fazer não era complicado: apagar objetos, interpolar imagens, deletar fundos, rastrear movimentos, etc. Plug-in Premiere para manequins.
E quando a Runway abriu uma nova porta para a inteligência artificial, ela tem a capacidade de transformar pedras em ouro. Na versão Gen 1 anunciada em setembro passado, ele tem a capacidade de converter texto em vídeo. As pessoas naquela época tinham acabado de ver a mágica da conversão de texto em imagem, e o Runway podia gerar imagens dinâmicas diretamente, o que era tão chocante quanto um golpe de redução de dimensionalidade.
Depois de meio ano, Runway Gen 2 está aqui.
Comparado com o modelo Gen 1, atinge maior consistência e fidelidade de tempo.Em termos humanos, a conexão entre as imagens é mais suave e a qualidade da imagem é maior.
Com o Gen 2, você está um passo mais perto de gerar vídeos de sua imaginação a qualquer hora, em qualquer lugar.
Digite uma palavra rápida que não seja muito longa: montanhas fotografadas por drones. Com base nisso, o Runway gera a seguinte tela.
Aqui está outra: a luz do sol da tarde entrando pelas janelas de um apartamento na cidade de Nova York.
Vá para uma versão avançada, alimente imagens e texto para o Runway e, em seguida, gere um pequeno vídeo.
▲ O texto é: Um homem está andando na rua, e as luzes de néon dos bares ao redor o iluminam
▲ Imagem original
Ou anime uma imagem estática.
Também é possível renderizar diretamente uma imagem dinâmica de uma animação não texturizada a ser renderizada.
O progresso do Runway é óbvio para todos. Ele foi cada vez mais longe e mais suave na estrada contra o modelo de rede. A versão Gen 2 de hoje pode ser considerada "assistível". Embora não seja excelente, o futuro pode ser esperado.
Talvez quando se trata da versão Gen 3, com a ajuda dela, possamos gerar vídeos curtos de sucesso Douyin com um clique. Naquela época, isso seria um pesadelo para os blogueiros de qualidade?
Explodido! Google começa a testar Bard
Se a Nvidia nos permite ver o futuro do desenvolvimento da IA, o Bard do Google é a IA de hoje.
Depois que todos ficaram chocados com o GPT-4 e o Midjourney V5 por uma semana, enquanto Lao Huang aguardava ansiosamente a futura era da IA, o Google anunciou a abertura oficial do acesso do Bard: experimente o Bard e forneça seus comentários.
De acordo com a última demonstração do Google, o Bard é mais como um assistente pessoal focado no trabalho e no estudo do que o ChatGPT.Com sua ajuda, você pode estimular ideias e satisfazer a curiosidade.
Você pode pedir a Bard para explicar a física quântica em linguagem simples ou pedir a Bard para fazer um brainstorming e ajudá-lo a ler 20 livros em um ano.
O Google disse que os usuários podem acelerar as ideias e estimular a curiosidade com a ajuda do Bard. Você pode usar o Bard para dar dicas sobre como ler 20 livros por ano ou explicar a física quântica em linguagem simples.
Também encontramos alguns detalhes no conteúdo da demo. Bard parece gerar várias respostas ao mesmo tempo. Você pode escolher aquela que melhor se adapta às suas necessidades e continuar fazendo perguntas.
Claro, ChatGPT também pode gerar várias respostas, mas é regenerado depois que a resposta termina.Em comparação, Bard é mais como uma parte B que fornecerá várias soluções ao mesmo tempo.
Pode ser que as notícias negativas do ChatGPT e do Bing Chat tenham atraído a atenção do Google, que enfatiza constantemente que o Bard é apenas um experimento, e as informações geradas pelo Bard não representam o ponto de vista do Google.
O Google disse que, embora o Bard seja alimentado por um grande modelo de linguagem e se torne mais forte com o tempo, ele aprenderá alguns preconceitos ou estereótipos, fazendo com que diga "com confiança" algumas informações imprecisas ou falsas, por exemplo, ele entenderá "ZZ Plant" como Zamioculcas zamioculcas em vez do correto Zamioculcas zamiifolia.
Com as lições aprendidas com os "malucos" do Bing Chat, a primeira versão beta do Bard limitou o número de trocas em uma mesma conversa, de forma a garantir a veracidade do conteúdo. Quando você faz login no Bard pela primeira vez, ele informa que se trata de um experimento e aguarda seu feedback.
Como a primeira versão do Bard, ainda não oferece suporte a mais idiomas (incluindo chinês), e o Google continuará atualizando a escrita de código, o reconhecimento/geração de imagens e o suporte a vários idiomas.
▲ Bardo: Não sei chinês, mas espero falar chinês no futuro
Atualmente, o Bard está aberto apenas para acesso no Reino Unido e nos Estados Unidos e se expandirá gradualmente para mais países e regiões no futuro.
Você pode tirar fotos enquanto conversa, o Bing Chat vai um passo além
Quão popular é o Bing Chat, talvez apenas os dados de que o Bing DAU ultrapassou 100 milhões pela primeira vez após seu lançamento possam explicar. De perguntas complexas a bate-papos divertidos e ideias inspiradas realizadas, o Bing Chat está remodelando a maneira como pesquisamos na web.
A partir de agora, você pode pedir ao Bing Chat para fazer desenhos.
A Microsoft atualizou as versões de visualização dos novos navegadores Bing e Edge com três novos recursos: Bing Image Creator, AI-driven Stories e Knowledge Cards 2.0. O mais importante deles é o Bing Image Creator, que pode fazer desenhos.
De acordo com a Microsoft, o cérebro humano processa informações visuais cerca de 60.000 vezes mais rápido que o texto. Nos dados de pesquisa do Bing, as imagens são um dos tipos mais pesquisados. O Bing Image Creator, alimentado por uma versão avançada do modelo DALL·E, pode nos deixar use nossa própria linguagem para descrever as informações da imagem no Bing Chat, selecione o estilo de arte e o Image Creator conectará o contexto e "desenhará sua imaginação no papel".
A adição do Bing Image Creator torna o navegador Edge o primeiro navegador a integrar um gerador de imagens de inteligência artificial.
Histórias e cartões de conhecimento 2.0 alimentados por inteligência artificial permitem que você obtenha imagens, vídeos curtos e infográficos conduzidos por inteligência artificial após a pesquisa, e você pode obter fatos e informações importantes rapidamente.
Quando você usar o Bing para pesquisar no futuro, o que você obterá não serão links frios da Web, mas imagens, vídeos e histórias visuais mais ricas e interessantes.
Se você se inscreveu por meio do novo Bing, pode experimentar o Bing Image Creator no Bing Chat agora e, se inserir a partir do seguinte URL, poderá experimentá-lo diretamente.
https://www.bing.com/create
No entanto, esse recurso oferece suporte apenas ao inglês por enquanto e continuará a ser atualizado no futuro.
Adobe Firefly: "O suporte mais forte entre os aliados"
Quando as empresas de tecnologia se envolvem na geração de imagens, a famosa empresa de design e criação Adobe naturalmente não fica muito atrás. Nesta noite louca, a Adobe também lançou sua própria coleção de modelos criativos de IA generativa: Adobe Firefly.
A Adobe demonstrou os recursos do Firefly com alguns exemplos simples. Você pode usar uma frase para transformar o cenário da primavera em inverno.
Você também pode usar um pincel na grama para pintar aleatoriamente e, em seguida, dizer ao Firefly que este é um rio e ele gerará automaticamente um rio.
Naturalmente, Firefly pode fazer mais do que isso. Selecione o cabelo de um cachorro, ele pode transformá-lo em uma escova e ajudar o cachorro a mudar seu penteado no local; projetar uma arte de palavras, pode ajudá-lo a gerar uma palavra, uma frase; projetar um fone de ouvido, Firefly também pode colocá-lo em cena e transformá-lo em um display de produto…
A Adobe acredita que a IA está fornecendo uma nova maneira de abrir o mundo, e os designers podem usar a maneira mais conveniente de realizar a criatividade, "ajudando pessoas criativas em vez de substituí-las".
Ao mesmo tempo, a Adobe também criou a CAI "Content Authenticity Initiative", que estabeleceu um padrão global para a atribuição de conteúdo digital confiável e marcou o conteúdo gerado pela inteligência artificial para criar o ecossistema Firefly. O suporte mais forte".
Ataque ao AIGC
Durante esta noite, testemunhamos vários avanços importantes no campo da IA, desde a camada de serviço até a camada de aplicativo.
Essas atualizações agrupadas provam que o campo da IA entrou em um estágio de rápido desenvolvimento. No mês passado, a IA pode não conseguir desenhar bem os dedos. No próximo mês, com o aumento do poder de computação e das atualizações de modelos, a IA já pode substituir o trabalho dos modelos de roupas.
Inúmeras obras de ficção científica previram que a IA se tornará parte de nossas vidas no futuro, mas ninguém nos disse que estamos a apenas alguns metros desse futuro.
Nossas vidas estão sendo reescritas pouco a pouco pela IA. Na conferência GTC, Huang Renxun apresentou um ponto de vista interessante. Ele acredita que a IA generativa é um novo tipo de computador. Podemos programar em linguagem humana e qualquer um pode ordenar que o computador resolva problemas.
Nos últimos meses, testemunhamos como a IA dominou gradualmente habilidades como desenho, redação, edição, tabulação e PPT. Se essa velocidade evolutiva continuar, há algo que a IA não possa fazer?
O CEO da OpenAI, Sam Altman, previu recentemente uma nova versão da "Lei de Moore" no Twitter. Ele acredita que a quantidade de computação de inteligência artificial global dobrará a cada 18 meses.
Em outras palavras, se você ainda tiver dúvidas sobre a IA generativa, o tempo lhe dará a resposta mais poderosa.
#Bem-vindo a prestar atenção à conta pública oficial do WeChat de Aifaner: Aifaner (ID do WeChat: ifanr), conteúdo mais interessante será apresentado a você o mais rápido possível.