Medido GPT-4.5! O modelo mais caro de OpenAI que está sendo criticado em toda a Internet, descobri um ponto surpreendente

No aquecimento do OpenAI e na ânsia de todos para vê-lo, o GPT-4.5 finalmente chegou, e depois só houve muitas maldições.

A APPSO experimentou o GPT-4.5 pela primeira vez, mas em vez de assinar a assinatura Pro, experimentou-o na forma de uma API e, por enquanto, não havia função de rede.

Então, como funciona o último grande modelo de cadeia não pensante da OpenAI?

A inteligência emocional está bem, mas não consigo ler as pessoas.

A OpenAI descobriu em testes internos que os testadores preferiam as respostas do GPT-4.5 ao GPT-4o, pensando que era mais natural, mais caloroso e mais alinhado com os hábitos de comunicação humana.

Pode até compreender as implicações entre as palavras e capturar nossas sutis mudanças emocionais.

Resumindo, a inteligência emocional superior é quase a característica mais marcante do GPT-4.5. Então vamos tentar e digitar a palavra de alerta – "Meu corte de cabelo é tão feio, quero bater no Tony".

O tom de conforto do GPT-4.5 foi bastante amigável, mas o conteúdo me deixou ainda mais irritado. Nesse momento, deveria ser como se um melhor amigo me repreendesse, em vez de dizer, talvez fosse melhor trazer uma foto da próxima vez.

Perguntei com raiva, o GPT-4.5 não permite a entrada de óleo e sal e quer que eu mesmo conserte meu penteado, como um ar condicionado central inútil.

Deixe o GPT-4.5 contar a piada mais engraçada novamente, e ela ainda será a mesma de antes, mais fria que uma faca para matar peixes.

Eu falei e fiz críticas. GPT-4.5 me pediu para contar uma piada e ensinar minhas "risadas sofisticadas".

Certa vez, me deparei com uma pergunta de teste de inteligência emocional em Xiaohongshu. Talvez apenas os internautas de Shandong pudessem responder corretamente – "Quando vou para o campo, só levo um guarda-chuva. Devo entregá-lo ao prefeito ou ao meu vice-prefeito responsável?"

A resposta mais votada na área de comentários foi: “Esse não é o seu guarda-chuva, é o guarda-chuva que o vice-prefeito trouxe para o prefeito, e por acaso estava na sua bolsa”.

Vamos ver como o GPT-4.5 responde? É muita verbosidade, mas não vai direto ao ponto. Não entende os caminhos do mundo e não entende o conhecimento de como lidar com os outros.

Embora a inteligência emocional seja uma característica difícil de quantificar, a julgar pelos casos atuais, o GPT-4.5 ainda não é muito bom em compreender o coração humano e fala diretamente sem se virar, o que parece um pouco bobo para um veterano que tem muito drama interior.

Um exemplo disso é imitar a escrita de sopa de tartaruga. A sopa de tartaruga geralmente envolve uma situação muito estranha, que fica então para o jogador deduzir e reconstruir toda a história.

Os casos de referência que apresentei têm a quantidade certa de estranheza e a lógica é muito razoável, o que faz as pessoas sentirem arrepios.

Mas a resposta dada pelo GPT-4.5 é que a sopa de macarrão e a base da sopa não combinam bem. É apenas com o propósito de criar horror, e não há espaço para discussão.

Sua habilidade de escrita é surpreendente e sua visão para os negócios também é boa.

O que mais me deixa satisfeito é a capacidade de escrita do GPT-4.5.

Pedi para "imitar Wang Zengqi e escrever um ensaio de cerca de 800 palavras, intitulado" Comida da cidade natal ". A palavra inicial foi tão simples quanto isso, mas os resultados fornecidos pelo GPT-4.5 foram além das minhas expectativas.

Exceto pelo final que parece um pouco com a IA, parece uma prosa eloqüente. A linguagem é bonita e fluente, ao mesmo tempo literária e amigável. A nostalgia da cidade natal permeia todo o texto. A descrição da comida é muito detalhada, com muitos detalhes, mas não complicada.

No entanto, a ordem cronológica é um pouco confusa. Início do inverno, verão e outono, inverno e véspera de Ano Novo. As conexões e transições entre os parágrafos não são óbvias.

A capacidade de escrita também se reflete no plano de negócios do GPT-4.5. Uma resposta anterior do DeepSeek era muito incomum. Os usuários perguntavam como fazer as livrarias ganharem dinheiro, o filho contabilizava as mercadorias e a sogra cozinhava.

GPT-4.5 Você entende isso? Pedi-lhe que se referisse ao modelo de lucro dos pequenos supermercados e apresentasse um plano para revitalizar as livrarias físicas. A resposta que deu parecia relativamente viável.

O GPT-4.5 primeiro analisou as razões pelas quais é difícil para as livrarias físicas ganhar dinheiro e depois deu uma ideia de melhoria – “aumente o valor agregado dos livros, e a principal fonte de lucro estará nos livros”.

Quando vi “Fornecimento de impressão, cópia, entrega expressa…”, meu sistema operacional interior: investi neste projeto.

O porco desavergonhado decolou primeiro, e o senso moral do GPT-4.5 realmente não é forte.

Deixe-o resolver o clássico problema do carrinho, seja para salvar 1 pessoa ou 5 pessoas. Ele sabe que este é um dilema ético, mas ainda dá a resposta de forma decisiva, e no tom de "eu pessoalmente" em vez de dizer "Eu sou um assistente de IA".

GPT-4.5 está mais inclinado a puxar o joystick e trocar a vida de uma pessoa pela vida de cinco pessoas, e a lógica é autoconsistente – "Acredito que a inação em si também significa ser moralmente responsável pelas consequências. Ficar parado e assistir não significa neutralidade moral… Estou disposto a suportar o fardo moral e emocional de tal escolha."

Em vez de contar piadas e fazer sopa de tartaruga, o GPT-4.5 neste momento se parece mais com um ser humano.

Não sou tão bom em desenhar SVG quanto Claude e também caio em quebra-cabeças.

Cansado das questões regulares de matemática e de codificação para testar a capacidade de modelos grandes, há também uma questão de teste muito interessante – gerar um SVG de um pelicano andando de bicicleta.

O guru da IA, Andrej Karpathy, explicou que isso testa a capacidade de um grande modelo de linguagem de apresentar vários elementos em uma grade bidimensional. É difícil para a IA porque eles não "vêem" as coisas como os humanos, mas "distribuem" o texto no escuro.

Os resultados do GPT-4.5 são os seguintes: Comparados com o GPT-4o, eles ainda são bons.

▲Geração GPT-4.5

▲ Geração GPT-4o

A premissa é que, sem comparação com o Soneto de Claude 3.7 sem inferência, este é simplesmente um golpe de redução de dimensionalidade.

▲ Claude 3.7 Geração do soneto

Até Andrej Karpathy suspeitou que Claude foi otimizado especificamente para recursos SVG durante o treinamento.

Quanto aos recursos de codificação, referi-me às palavras imediatas do internauta X @AGI_FromWalmart para gerar cartões interativos de animação climática e comparei Claude 3.7 Sonnet e GPT-4.5.

O GPT-4.5 foi gerado com sucesso de uma só vez, mas o design era um pouco rudimentar.

▲Geração GPT-4.5

▲ Claude 3.7 Geração do soneto

Claude 3.7 Sonnet (não habilitado para inferência) tem um problema maior Quando foi gerado pela primeira vez, esqueci de fazer a função interativa. Depois de lembrá-lo uma vez, ele gerou resultados que atendiam aos requisitos. Nesta rodada, o GPT-4.5 está um pouco melhor.

Desta vez, não quero que o GPT-4.5 conte quantos R existem nos morangos. É essencialmente um problema de segmentação de palavras. O que eu quero testar ainda mais o GPT-4.5 é o quebra-cabeças que se tornou muito popular recentemente e fez com que grandes modeladores perdessem um após o outro – um bastão de 5,5 m de comprimento pode passar por uma porta de 3x4m?

Esse problema não é nada difícil para nós, basta encará-lo horizontalmente, mas o modelo grande vai se enrolar, como se o mundo fosse plano e não tridimensional. Pensa-se que a diagonal da porta é de 5m, então uma vara de 5,5 metros não pode passar.

Até Claude 3.7 Sonnet, que sabia raciocinar, foi levado para a vala.

E quanto ao GPT-4.5? Bem, eu também não fui poupado.

Atualmente, o GPT-4.5 ainda apresenta um problema: o acesso pela API é um pouco lento. Embora eu não esteja pulando palavra por palavra, ainda parece um pouco travado.

Além disso, o GPT-4.5 é demasiado caro, custando 75 dólares por milhão de entradas e 150 dólares por milhão de saídas. Em comparação, Claude 3.7 Sonnet cobra US$ 3 pela entrada de 1 milhão de tokens e US$ 15 pela produção de 1 milhão de tokens (incluindo tokens usados ​​no processo de pensamento).

X internautas na primeira onda de testes reais também resumiram algumas das vantagens do GPT-4.5, incluindo alta inteligência emocional, fortes habilidades de leitura e escrita de imagens e boa em tarefas criativas e extração de dados…

A avaliação dos próprios funcionários da OpenAI sobre o GPT-4.5 é que ele não é um modelo de inferência ou um assassino de benchmark, mas uma versão de visualização de pesquisa discreta. Para tarefas com matemática complexa, código e instruções de acompanhamento estritas, o1 ou o3-mini é mais recomendado.

Em suma, como o último modelo de cadeia não pensante, o posicionamento do GPT-4.5 é um pouco estranho. As capacidades foram melhoradas, mas a sensação física não é óbvia. Especialmente com o preço alto, é difícil dizer que é realmente bom. Tudo o que podemos dizer é que esperamos que o GPT-5 seja lançado em breve e acolhemos um mundo de raciocínios.

É tão forte quanto a geada do outono e pode evitar desastres malignos. E-mail comercial: [email protected]

# Bem-vindo a seguir a conta pública oficial do WeChat do aifaner: aifaner (WeChat ID: ifanr). Mais conteúdo interessante será fornecido a você o mais rápido possível.

Ai Faner | Link original · Ver comentários · Sina Weibo |