Depois de ver todos os “PCs com IA”, descobri que o Mac sempre esteve aqui Gadgets de IA
No início do ano, o Mac Mini estava esgotado, com tempos de espera que chegavam a um mês e meio.
O Mac mini é um ótimo produto, isso é algo que todos sabem. Com preços competitivos em canais nacionais e excelente desempenho do chip M, a configuração básica pode ser adquirida por menos de 3.000 RMB, tornando-o uma máquina principal perfeita para iniciantes criativos.
No entanto, o recente aumento na popularidade do Mac mini tem pouco a ver com trabalho criativo ou uso cotidiano.
Quem acompanha notícias de tecnologia deve saber o que está acontecendo: o OpenClaw (anteriormente conhecido como Clawdbot) tornou-se repentinamente popular.
O OpenClaw oferece diversas opções de implantação: você pode instalá-lo em seu próprio computador ou dedicar um computador separado para ele; implantá-lo em uma máquina virtual/ambiente sandbox baseado em nuvem também é uma opção viável; posteriormente, alguns serviços de IA populares também lançaram alternativas de implantação com um clique baseadas em nuvem, reduzindo significativamente a barreira de entrada para usuários iniciantes.
No entanto, nos estágios iniciais, a opção de implantação mais comum era comprar um único Mac mini.
O motivo certamente não é o baixo custo, mas, mais importante, para que o OpenClaw seja útil, ele precisa de um "corpo físico" que lhe permita acessar arquivos e executar softwares.
Um servidor na nuvem pode executar o OpenClaw, mas ainda não é o seu computador. Ele não tem seus arquivos, softwares ou as diversas contas conectadas ao seu navegador, e não há o chamado "contexto". Um Mac mini pode ficar na sua mesa 24 horas por dia, 7 dias por semana, sem precisar ser desligado, e você nem precisa de um monitor separado se puder controlá-lo remotamente por meio de um chatbot.
O único custo significativo de usar o OpenClaw no seu próprio computador é a taxa simbólica para acessar a API de modelos grandes no servidor; muitos dos primeiros usuários sofreram prejuízos por causa disso. No entanto, se você comprar um Mac mini de alta especificação e baixar um modelo suficientemente grande para executar localmente, é praticamente como obter mão de obra gratuita, além dos custos de eletricidade e internet…
Segundo relatos da Tom's Hardware e da TechRadar, após a popularização do OpenClaw, o tempo de espera para as configurações do Mac mini de 24 GB e 32 GB aumentou para entre 6 dias e 6 semanas; o prazo de entrega do Mac Studio, mais potente, também aumentou de duas semanas para quase dois meses.
Esses tempos de espera são os votos computados pelos primeiros jogadores do OpenClaw que fizeram compras com dinheiro real.
(Nota: A escassez de alguns modelos também está relacionada ao recente lançamento dos novos computadores desktop Mac da Apple. No passado, os modelos mais antigos esgotavam-se assim que o novo modelo estava prestes a ser lançado. A popularidade do OpenClaw não é o único motivo.)
Como que por uma estranha reviravolta do destino, o Mac se tornou a principal escolha para " PC com IA " em 2026; pelo contrário, a indústria de PCs com Windows, que vem promovendo o "PC com IA" há vários anos, não se beneficiou em nada.
Fabricantes de chips como Intel, AMD e Qualcomm, juntamente com marcas tradicionais de PCs, vêm comercializando o conceito de "PCs com IA" desde 2023. Muitos desses computadores Windows mais recentes possuem a certificação Copilot+, ostentando desempenho impressionante de GPU e NPU, e alguns são até significativamente mais baratos do que Macs equivalentes.
Mas a questão é: por que as pessoas ainda estão migrando em massa para os Macs?
Por que um Mac?
O debate sobre se PCs com Windows ou Macs são melhores nunca terá uma resposta definitiva. No entanto, quando se trata de desenvolvimento de IA, os Macs se tornaram a escolha tácita.
Embora o "cérebro" do modelo principal resida em servidores na nuvem, os desenvolvedores trabalham diretamente em Macs. Isso tem pouco a ver com o formato ou a experiência do usuário do Mac: a questão principal é que o macOS tem raízes no sistema UNIX.
As funções principais de um Agente de IA incluem manipular arquivos, executar ferramentas de linha de comando, agendar APIs e até mesmo controlar interfaces gráficas. Simplificando, o Agente é um "engenheiro de scripts" inteligente e automatizado, com a diferença de que os scripts são gerados em tempo real por um modelo de linguagem robusto. O macOS, por ser um sistema do tipo UNIX, oferece excelente suporte nativo para comandos bash e zsh.
Isso resolve o problema mais básico de configuração de ambiente no desenvolvimento de IA. No Windows, você pode precisar instalar uma máquina virtual WSL2 primeiro. Mas no Mac, tudo, desde o ambiente Python até a complexa cadeia de ferramentas de compilação C++, está basicamente pronto para uso imediato. Gerenciadores de pacotes como o Homebrew tornam a instalação de várias ferramentas e dependências uma questão simples de um único comando.
Além disso, o macOS está em conformidade com o padrão POSIX, oferecendo uma confiabilidade ligeiramente maior no processamento de caminhos de arquivos, tarefas multithread e protocolos de rede. Os agentes frequentemente precisam ler e gravar dados e chamar APIs; o agendamento eficiente em nível de sistema permite que os agentes operem em um ritmo mais acelerado em um Mac.
Essa sensação nativa e estabilidade permitem que desenvolvedores e usuários pioneiros comecem mais rapidamente e dediquem mais tempo à orquestração de agentes.
O Windows possui o WSL e o PowerShell, que abrangem a maioria das funcionalidades. No entanto, o WSL é uma camada de compatibilidade construída sobre o Windows e sofre com problemas legados, como convenções de caminho, mecanismos de registro e modelos de permissão. Portanto, haverá, de fato, mais atrito entre modelos de IA e projetos de agentes executados no Windows.
Tomando Ollam e LM Studio como exemplos, essas duas ferramentas tornam a inferência de arestas em modelos grandes tão simples quanto "baixar, instalar e executar". A versão para Windows do Ollam foi lançada seis meses depois da versão para macOS; embora o LM Studio tenha suporte para ambas as plataformas desde o início, a versão para Mac sempre teve uma reputação melhor na comunidade; o mesmo se aplica ao OpenClaw.
Analisando mais a fundo o nível do hardware, a memória é a força vital do raciocínio e da execução em grandes modelos de linguagem.
Tomando o OpenClaw como exemplo novamente, os usuários podem acessar modelos na nuvem pagando com tokens, mas seu ponto forte reside na inferência de modelos no lado do cliente. De acordo com pesquisas gerais, para que o OpenClaw funcione como uma pessoa com QI normal, o número mínimo de parâmetros do modelo de backend é de cerca de 7 bilhões, e geralmente precisa atingir pelo menos 32 bilhões de parâmetros para funcionar de forma relativamente estável.
Mesmo após a quantização de 4 bits, um modelo tão grande ainda requer aproximadamente 20 GB de memória (parte da qual precisa ser reservada para a janela de contexto).
Neste ponto, a arquitetura dos PCs com Windows torna-se inadequada. Existe isolamento físico entre a memória da CPU e a memória de vídeo, e os dados são transferidos através do barramento PCIe, o que os torna suscetíveis a gargalos de largura de banda. Transferências frequentes de dados podem afetar a velocidade do processo de inferência.
Sem mencionar que modelos grandes geralmente dependem de GPUs para inferência acelerada, exigindo memória de vídeo suficiente para suportá-los. Entre as placas de vídeo para consumidores da NVIDIA, apenas aquelas com 24 GB de memória de vídeo (série 90) atendem aos requisitos de configuração, mas o custo total para montar um sistema completo (considerando apenas máquinas novas) seria de pelo menos 10.000 RMB, e com uma placa nova, esse valor subiria para 40.000 a 50.000 RMB.
A arquitetura de memória unificada da Apple permite que Macs com chips da série M lidem com modelos de grande escala com facilidade ao realizar inferência no dispositivo.
Em termos simples, o efeito de uma arquitetura de memória unificada é que a CPU, a GPU e o mecanismo de computação neural podem compartilhar o mesmo pool de memória, eliminando a sobrecarga das transferências físicas no barramento. Isso permite que os Macs alcancem uma largura de banda de memória extremamente alta e proporciona melhor desempenho para a interconexão de múltiplas máquinas.
Tomando como exemplo o Mac mini, escolhendo o processador M4 Pro de alto desempenho, combinado com 48 GB de memória, e selecionando a configuração básica para o restante, o preço total da máquina fica em torno de 13.000 yuans, o que pode atingir o nível de configuração do modelo de 32 bilhões de parâmetros geralmente recomendado pela comunidade OpenClaw.
Obviamente, esta é apenas uma configuração profissional que exige alta taxa de transferência de tokens. Se você for um entusiasta e quiser apenas experimentar o OpenClaw, pode executá-lo com um chip M4 padrão e 32 GB de RAM.
Obviamente, essa comparação de custos parte do pressuposto de que o computador será dedicado à inferência de borda/execução do OpenClaw, e não usado como máquina principal. Um PC com Windows de preço similar também pode ser usado para jogos e edição de vídeo, oferecendo maior versatilidade.
Além disso, a memória unificada do Mac e a VRAM dedicada da placa gráfica de um PC não são a mesma coisa. A memória unificada é compartilhada pelo sistema e pela placa; mesmo em um Mac mini com 32 GB de RAM, o macOS e outros softwares ainda exigem vários gigabytes de memória. Por outro lado, a VRAM dedicada da RTX 3090 permite que a placa utilize toda a memória disponível, podendo inclusive executar modelos de quantização mais complexos em conjunto com a CPU e a memória.
Se você usar apenas a API em nuvem como núcleo do OpenClaw e não considerar a implantação na borda, a facilidade de uso do Mac ainda representa uma vantagem.
Além disso, embora o CUDA forneça uma interface de programação de memória unificada, a memória da CPU e a memória da GPU ainda estão fisicamente separadas, e os gargalos de transferência de dados e largura de banda não foram eliminados.
Em seguida, vamos analisar o consumo de energia.
O agente opera em um ciclo contínuo: acionamento da tarefa, raciocínio, execução, espera e, em seguida, novo acionamento. Um PC com Windows com a configuração mencionada consumiria cerca de 300-400 W (em implantação local), e a dissipação de calor, o ruído e os custos de eletricidade não são insignificantes.
O Mac mini normalmente apresenta um consumo de energia estável em torno de 10-40 W, com um pico de potência de 65 W (M4) ou 155 W (M4 Pro). Sua dissipação de calor é controlável, com ruído de ventoinha praticamente imperceptível, resultando em uma operação mais silenciosa. Essa operação contínua de baixa latência e baixo consumo de energia proporciona uma diferença sutil na experiência do usuário.
Naturalmente, nossa discussão se concentrará mais no OpenClaw, um cenário impulsionado principalmente pelo raciocínio. Se o seu trabalho envolve ajustes locais e você prioriza a eficiência, então, na plataforma macOS, você geralmente precisará do Mac Studio, ou pelo menos de um MacBook Pro de última geração, para sequer começar a entender o básico.
Ao mesmo tempo, o fato de os Macs não suportarem CUDA é algo que talvez nunca mude. No entanto, o verdadeiro campo de batalha do CUDA é o treinamento de modelos; cenários de inferência dependem muito menos dele, já que a Apple tem o MLX como seu trunfo para inferência (que será discutido em detalhes mais adiante).
Voltando ao OpenClaw: seu criador, Peter Steinberger, declarou publicamente que prefere o Windows e o considera mais poderoso. No podcast de Lex Fridman, ele afirmou que o Mac mini não é a única opção "física" e que executar o OpenClaw via WSL2 já é uma solução bastante madura; ele chegou a criticar publicamente a Apple por "ter cometido erros" na área de IA e expressou insatisfação com a natureza fechada do ecossistema da Apple.
Objetivamente falando, para usuários com conhecimentos técnicos limitados, o Mac mini é de fato a solução mais descomplicada e fácil de usar para implementação. O principal motivo é seu baixo consumo de energia, operação silenciosa e tamanho reduzido, tornando-o semelhante a um "servidor" que pode ser conectado em um canto, permanecer em modo de espera 24 horas por dia e não exigir manutenção.
Outro exemplo relacionado ao consumo de energia: Há alguns dias, um engenheiro chamado Manjeet Singh conseguiu fazer a engenharia reversa do Neural Engine (ANE) no processador M4 e descobriu que o ANE tem uma eficiência energética extremamente alta: sua eficiência chega a 6,6 TOPS/W quando a capacidade de processamento é totalmente utilizada.
Comparado com a GPU M4 da Apple, que tem aproximadamente 1 TOPS/W, a H100 da Nvidia fica em torno de 0,13, e a A100 em 0,08 TOPS/W.
Para colocar em perspectiva, a taxa de transferência de uma única placa A100 é 50 vezes maior que a da M4 ANE, mas o consumo de energia da M4 ANE é 80 vezes maior que o da A100. O autor original escreveu no artigo: "Para inferência de borda, o desempenho da ANE é excepcional."
Vamos começar com o motor neural.
Em 2011, a Apple implementou pela primeira vez a detecção facial em tempo real e outras funções que mais tarde foram consideradas tarefas de IA, gravando-as diretamente na unidade de processamento de imagem (ISP) do processador A5.
Em 2014, a Apple adquiriu a PrimeSense e começou a desenvolver um novo coprocessador especificamente para computação de redes neurais. Esse trabalho foi concretizado três anos depois no iPhone X: o processador A11 Bionic incorporou o já mencionado Neural Engine (ANE), com uma capacidade de processamento de apenas 0,6 TOPS, para impulsionar o Face ID e o Modo Retrato.
Naquela época, a IA ainda não havia chegado à era dos modelos em larga escala; ela dependia principalmente de diversos algoritmos de aprendizado de máquina. O mercado não reagiu muito ao lançamento desse coprocessador pela Apple. Mas a Apple nunca desistiu e continuou investindo pesadamente.
Três anos depois, o M1 foi lançado, juntamente com uma arquitetura de memória unificada, e o ANE também foi introduzido no Mac. O orçamento de energia mais amplo para plataformas desktop permitiu que o poder de processamento do ANE saltasse para 11 TOPS. As gerações subsequentes apresentaram melhorias adicionais: M2 com 15,8 TOPS, M3 com 18 TOPS, M4 com 38 TOPS e, no final de 2025, o M5 atingiu 57 TOPS. Do M1 ao M5, o poder de processamento do ANE da Apple aumentou mais de cinco vezes.
Outros fabricantes de PCs não podem deixar de invejar a lógica por trás desse crescimento. Antes da Apple adicionar hardware de aceleração de IA aos Macs, dezenas de milhões, até mesmo centenas de milhões, de iPhones já utilizavam a mesma arquitetura ANE. O desempenho em termos de consumo de energia, estabilidade e casos extremos já haviam sido verificados em modelos disponíveis comercialmente e, em seguida, transferidos para os Macs.
A Intel e a AMD praticamente não têm presença no mercado de dispositivos móveis voltado para o consumidor; embora a Qualcomm também tenha colocado chips Snapdragon em centenas de milhões de celulares Android, ela é apenas uma fornecedora de chips. A IA no Android é desenvolvida pelo Google (Gemini) e pelas principais fabricantes de celulares em colaboração com laboratórios de IA terceirizados; a IA do Windows (Copilot) é desenvolvida pela Microsoft.
O diferencial da Apple reside em sua integração vertical, controlando tanto o hardware quanto o software. Outros fabricantes de chips não possuem esse controle unificado.
É claro que inferir grandes modelos de linguagem em um Mac tem pouco a ver com ANE; é mais adequado para tarefas de IA com padrões fixos, como Face ID e reconhecimento facial. A GPU lida com a maior parte da computação.
(Nota: A situação sofreu pequenas alterações recentemente. Primeiro, o ANE nos chips da série M agora lida com o estágio de pré-preenchimento da injeção de prompts; e, em relação à engenharia reversa do ANE do M4 mencionada anteriormente , o engenheiro também implementou um método para ignorar o CoreML e chamar o ANE diretamente, melhorando significativamente o desempenho . Seguindo essa linha de raciocínio, talvez seja possível encontrar um método geral para utilizar o ANE diretamente para acelerar a inferência e até mesmo o treinamento.)
No final de 2023, a Apple tornou o MLX de código aberto, fornecendo aos desenvolvedores uma estrutura de inferência de modelos otimizada especificamente para os chips da série M. No ano passado, a estrutura básica de modelos foi lançada com o Apple Smart, permitindo que os desenvolvedores de aplicativos acessem os modelos básicos integrados do sistema em iPhones e Macs sem a necessidade de conexão com a internet e sem que os dados saiam do dispositivo.
Os repetidos atrasos da Apple no desenvolvimento de IA são inegáveis. No entanto, também é inegável que a Apple começou a experimentar com IA há pelo menos 10 anos, lançando as bases para o desenvolvimento de IA para computadores pessoais há muitos anos.
No que diz respeito ao Windows, o termo " PC com IA " só começará a aparecer em comunicados de imprensa e apresentações da Intel, AMD e fabricantes de PCs no final de 2023.
Em maio de 2024, a Microsoft lançou o sistema de certificação de PC Copilot+, cujo principal recurso é o "Recall". A lógica básica é que o sistema captura continuamente imagens do conteúdo da tela e, em seguida, a inteligência artificial (IA) do Windows ajuda o usuário a se lembrar do que já viu.
Independentemente da real importância dessa funcionalidade na época de seu lançamento, descobriu-se que sua segurança apresentava sérios problemas: apenas um mês após o lançamento, pesquisadores descobriram que a funcionalidade de Recuperação armazenava todas as capturas de tela em um banco de dados local de texto simples não criptografado.
A Microsoft removeu abruptamente o recurso de Recuperação. Seis meses depois, a Microsoft lançou uma versão beta novamente, mas foi adiada mais uma vez devido a novos problemas de segurança. A Recuperação foi finalmente lançada oficialmente em abril de 2025, mas passou a estar desativada por padrão, e os dados passaram a ser armazenados de forma criptografada quando ativada.
Do anúncio inicial à usabilidade real, levou quase um ano. Pode-se dizer que o principal recurso de todo o ecossistema Windows, o PC com IA, passou por uma reformulação completa, um processo não menos complicado do que os repetidos avanços e retrocessos da IA da Apple/nova Siri. No entanto, talvez porque a voz do ecossistema Windows seja tão discreta, poucas pessoas tenham prestado atenção aos PCs com IA, e muitas nunca sequer ouviram falar deles.
Em relação aos padrões de certificação para o sistema Copilot+ PC, a Microsoft foca principalmente no Neural Processing Engine (NPU), que exige 40 TOPS. No entanto, essa capacidade de processamento é utilizada para tarefas específicas voltadas ao consumidor, como legendagem em tempo real, desfoque de fundo e aprimoramento de fotos; a inferência de modelos de linguagem em larga escala nunca está dentro de seu escopo (similar ao ANE da Apple).
Quando os desenvolvedores tentam realizar inferência de modelos de linguagem em larga escala no dispositivo, descobrem que, embora esses computadores sejam chamados de PCs com IA, eles não são otimizados para fins de inferência de IA. O poder de processamento principal do Microsoft Copilot vem da nuvem Azure e é quase independente do poder de processamento do próprio dispositivo. Para os usuários que compraram um PC com IA do Windows, a melhoria de IA mais perceptível provavelmente é a legenda em tempo real e a classificação automática de fotos.
Quando se trata de inferência na borda, há outro fator crucial: os caminhos de otimização no ecossistema de IA do Windows são fragmentados.
As GPUs da NVIDIA usam CUDA e TensorRT, as NPUs da Intel usam OpenVINO, as NPUs da Qualcomm usam o SDK QNN e as NPUs da AMD usam sua própria pilha de drivers. Os formatos de armazenamento de modelos também são bastante fragmentados, com um formato geral para inferência CPU+GPU (GGUF, mais precisamente inferência CPU + descarregamento hierárquico GPU) e um formato exclusivo para GPU (EXL2).
Isso significa que executar modelos e funcionalidades baseadas em modelos em PCs com IA e Windows será mais complexo em termos do backend de inferência. A Microsoft possui o ONNX Runtime e o DirectML (que está atualmente em processo de renovação) como uma camada de abstração unificada, mas o custo dessa unificação é o sacrifício do desempenho máximo de cada fornecedor. A Apple é atualmente a única fabricante de PCs que desenvolveu e mantém continuamente uma estrutura de inferência LLM específica para seu próprio hardware; essa estrutura é o MLX.
Em plataformas de modelagem de código aberto como a Hugging Face, você pode facilmente encontrar um grande número de modelos que utilizam o framework MLX. Contanto que possuam o sufixo MLX e sua memória/processador permitam, eles podem ser usados imediatamente.
No entanto, a recente saída de Awni Hannun, um dos principais colaboradores do MLX, da Apple, trouxe alguma incerteza quanto ao futuro do projeto. Hannun também afirmou que a equipe do MLX ainda conta com muitos funcionários excelentes, portanto, não há motivo para preocupação.
Nossa própria experiência
Ao longo do último ano, a iFanr realizou inúmeros testes de implementação de modelos de IA em dispositivos de borda e também entrevistou alguns desenvolvedores externos. Dois exemplos merecem destaque.
No último Ano Novo Chinês, a DeepSeek surgiu com força total, e o novo Mac Studio foi lançado logo em seguida. Testamos o modelo DeepSeek R1 671B (nota: na realidade, apenas a memória é necessária; o disco rígido não precisa ser tão grande; um SSD de 1 TB custando mais de 70.000 RMB seria suficiente) e a versão otimizada 70B em um Mac Studio M3 Ultra (512 GB + 16 TB) com preço próximo a 100.000 RMB.
Nossa conclusão na época foi que um processador de 70 bits era suficiente para o diálogo cotidiano em ambientes de borda, e gastar dezenas de milhares de dólares em uma máquina apenas para conversar com IA era simplesmente um desperdício de dinheiro. As capacidades dos modelos na época realmente não eram muito boas; foi somente mais tarde que surgiram novos modelos multimodais e capacidades de agentes.
No entanto, o fato de o enorme número de parâmetros do modelo 671B poder ser usado para inferência de bordas em um computador desktop ainda é uma façanha notável. Em uma memória unificada de 512 GB, o modelo 671B ocupou 400 GB. Com o contexto, o próprio sistema macOS e outras tarefas, a carga estava quase no máximo, mas a máquina funcionou silenciosamente o tempo todo, com níveis de ruído dentro da faixa normal e sem superaquecimento.
Na lógica tradicional de infraestrutura de IA, essa escala de parâmetros se enquadra no nível do data center, e hardware de consumo não deveria, teoricamente, aparecer nesse cenário. Mas, mesmo assim, o Mac Studio Ultra M3 surgiu discretamente.
Mais tarde, entrevistamos a Exo Labs, uma equipe de startups da Universidade de Oxford, no Reino Unido. Eles usaram quatro Mac Studios com 512 GB de memória uniforme para formar um cluster de computação com 128 núcleos de CPU, 320 núcleos de GPU, 2 TB de memória uniforme e uma largura de banda de memória total de mais de 3 TB/s.
A equipe desenvolveu a plataforma de agendamento Exo V2 para este cluster Mac, capaz de carregar dois modelos DeepSeek (V3+R1, quantização de 8 bits) simultaneamente. Além de os dois modelos realizarem inferências em paralelo, os pesquisadores também podem utilizar a tecnologia QLoRA para realizar ajustes finos locais, reduzindo significativamente o tempo de treinamento. O consumo de energia de todo o sistema é mantido abaixo de 400 W e praticamente não há ruído de ventoinha durante a operação.
A solução tradicional com poder de computação equivalente exigiria cerca de 20 placas NVIDIA A100, custando mais de 2 milhões de RMB na época; em contraste, o custo total da solução da Exo Labs foi de apenas 400.000 RMB (da mesma forma, o SSD era um exagero significativo, então o custo total poderia ser inferior a 300.000 RMB).
O fundador da Exo Labs nos contou na época que Oxford tinha seu próprio cluster de GPUs, mas as solicitações exigiam meses de espera na fila e apenas uma placa podia ser solicitada por vez. Essas limitações os forçaram a inovar, e eles acabaram encontrando as ferramentas certas: uma arquitetura de memória unificada, MLX, e computadores Mac.
Em nosso artigo da época, escrevemos: "Se as placas gráficas da série H da Nvidia representam o auge do desenvolvimento de IA, o Mac Studio está se tornando o canivete suíço nas mãos de equipes pequenas e médias."
A Apple já sabia disso há muito tempo.
O que é um verdadeiro PC com IA?
No ano passado, a Apple lançou o Basic Model Framework, que permite aos desenvolvedores de iOS e macOS chamar os modelos básicos integrados do sistema com latência de rede zero, taxas de API zero e dados sem sair do dispositivo.
Embora a equipe de modelagem da Apple quase tenha se desintegrado posteriormente , a Apple não estagnou em suas iterações. Ela sempre soube onde os desenvolvedores estavam e o que eles queriam. Sua resposta foi integrar recursos de IA baseados em grandes modelos à infraestrutura do sistema operacional, tornando-os mais fáceis de usar para os desenvolvedores.
Na semana passada, a Apple tornou o código aberto do python-apple-fm-sdk. Anteriormente, os testes e a otimização completos dos módulos básicos da Apple exigiam um ambiente Swift; agora, este SDK amplia as possibilidades, permitindo que desenvolvedores acostumados com fluxos de trabalho em Python também participem.
A filosofia de privacidade da Apple é consistente em todos os aspectos: os modelos subjacentes chamados pelo python-apple-fm-sdk são executados inteiramente localmente e os dados nunca saem do dispositivo. Nos cenários em que todo o sistema de IA da Apple precisa ser implantado na nuvem, ela usa o Private Cloud Compute, onde os dados são processados e depois excluídos, e a Apple não tem acesso a eles.
Por outro lado, o Recall também permite que a IA acesse dados privados dos usuários, mas a primeira versão os armazenava em um banco de dados de texto simples não criptografado. Uma abordagem impede vazamentos por meio de sua arquitetura, enquanto a outra apenas corrige os dados após a ocorrência de um incidente.
No entanto, a vantagem do Mac como ferramenta de desenvolvimento e implementação de IA é mais uma "vantagem de adaptabilidade", ou algo que foi adquirido inesperadamente.
Isso significa que a Apple desenvolveu inicialmente o Neural Engine para atender ao Face ID e ao Modo Retrato; a arquitetura de memória unificada foi um passo necessário para se libertar de sua longa dependência da Intel; e a abertura do código-fonte do MLX foi uma resposta à demanda dos desenvolvedores por ferramentas de inferência eficientes. A explosão de cenários de Agentes de IA, que o Mac conseguiu aproveitar, foi um benefício inesperado dessas e de muitas outras decisões de engenharia não mencionadas.
O Mac não foi inicialmente projetado para IA; seu posicionamento de produto sempre esteve mais próximo ao de uma "ferramenta para criadores". Os usuários-alvo de longo prazo da Apple são editores de vídeo, artistas e engenheiros de software. Eles precisam de máquinas com baixo ruído, desempenho consistente, grande capacidade de memória e a capacidade de funcionar ininterruptamente.
A inferência de modelos de IA e a implementação de agentes, atualmente populares, exigem exatamente a mesma coisa.
Olhando para trás, quando a Apple investiu pesadamente em aprendizado de máquina há mais de uma década, provavelmente não poderia ter previsto a popularidade explosiva do OpenClaw em 2025. Poderíamos até argumentar que, dez anos atrás, a Apple provavelmente não teria gostado do OpenClaw, uma plataforma que parecia oferecer "altos retornos e oportunidades ainda maiores", onde a privacidade dos usuários e a segurança dos dados eram desconsideradas, e várias normas de engenharia de software eram ignoradas assim que a ilusão se instalava…
Mas como dizer isso? Mesmo que a Apple não goste agora, ela não tem escolha. Como diz a Lei de Murphy, talvez algumas coisas estivessem predestinadas desde o início. Cada carta que a Apple jogou ao longo dos anos, intencionalmente ou não, se tornou uma mão vencedora neste ano do Agent Year (esperamos que desta vez seja mesmo).
A equipe do Windows, que começou a investir em PCs com IA em 2023, na verdade vem tentando alcançar a vantagem arquitetônica que a Apple estabeleceu com o lançamento do M1 em 2020. Claro, considerando as constantes notícias negativas que a Apple vem recebendo em relação à IA em 2025, é possível diminuir essa diferença. Mas a Apple não vai parar e esperar.
Esta semana, a Apple lançou o M5 Pro e o M5 Max, que apresentam chips com arquitetura de fusão de chip duplo, e mencionou especificamente o LM Studio como um benchmark de desempenho LLM em seu comunicado à imprensa.
No passado, a Apple não falava muito sobre "grandes modelos de linguagem" nos lançamentos de seus produtos de hardware, especialmente no contexto de inferência no dispositivo — mas as coisas são diferentes agora.
Para concluir
Já elogiamos muito a Apple em vários lugares, mas vamos com calma e nos perguntar sobre o título: o Mac de hoje é realmente um PC com IA?
A iFanr acredita que a Apple não fez o suficiente. Até o momento, não vimos nenhum produto de computação pessoal que possa ser chamado de PC com IA , ou verdadeiramente "hardware com IA nativa".
Voltando ao OpenClaw, a verdadeira forma de um PC com IA já está se tornando clara a partir dos agentes implantados na borda da rede atualmente.
No nível da aplicação, o conceito de "aplicações" voltadas para humanos pode regredir parcialmente a um estado sem interfaces gráficas. Afinal, os humanos precisam de interfaces gráficas, enquanto os agentes não. Além disso, você perceberá que cada vez mais pessoas estão se acostumando com métodos de interação baseados em diálogos e linhas de comando.
Hoje, os primeiros usuários de agentes estão encontrando ferramentas e habilidades para equipá-los; no futuro, os próprios agentes buscarão novas ferramentas e plugins em repositórios de código público para se aprimorarem.
Em nível de sistema, o sistema de permissões reestruturará o princípio de funcionamento do agente, permitindo que ele manipule diretamente diversas interfaces. Em um nível subjacente, haverá um mecanismo de orquestração e agendamento de modelos que alternará entre modelos conforme a necessidade, com base na tarefa.
A inferência local e a inferência em nuvem com preservação de privacidade formarão um circuito fechado completo, seguro e que preserva a privacidade. Independentemente de onde os dados sejam transmitidos, eles são vetorizados, criptografados e armazenados, sendo destruídos imediatamente após o uso.
Em outras palavras, um verdadeiro PC com IA deve ser um sistema que trate a IA como um "cidadão de primeira classe" desde o início de seu projeto, começando do zero.
Nesse sentido, tanto o Mac quanto o Windows estão atualmente em uma fase de transição. O Mac está mais próximo disso porque o ambiente Unix, o hardware unificado e o ecossistema maduro já estavam estabelecidos antes da chegada da era dos agentes de IA. O Windows carrega um fardo histórico mais pesado, o que dificulta as mudanças, e ainda está se adaptando.
Mas, depois de darmos voltas e voltas, ainda não chegamos à questão mais fundamental: um verdadeiro PC com IA precisa mesmo ser um "PC"?
Se mudarmos nossa perspectiva, toda a implantação e operação do agente ocorre na nuvem; os dados relacionados ao usuário, ou seja, o "contexto", também são armazenados de forma segura e privada na nuvem; os humanos precisam apenas de um dispositivo terminal como "comunicador" e sensores para tirar fotos e gravar áudio para enviar os dados necessários ao agente, e esse dispositivo nem sequer precisa de muita capacidade de computação de borda.
O Mac é o melhor PC com IA atualmente, mas o "PC com IA" do futuro pode ser mais parecido com… o iPhone?
Por Du Chen
#Siga a conta oficial do iFanr no WeChat: iFanr (ID do WeChat: ifanr), onde você encontrará conteúdo ainda mais interessante o mais breve possível.
























