A maior atualização da Apple este ano está chegando, e a forma definitiva de AI Siri é mais ficção científica do que a visualização do GPT-4o |

Siri ficou para trás.

De acordo com o New York Report, isso foi o que o chefe de software da Apple, Craig Federighi, e o executivo de aprendizado de máquina, John Giannandrea, pensaram depois de passar semanas testando o ChatGPT no ano passado, então eles decidiram fazer uma grande reforma no assistente de voz de 13 anos.

Faltando menos de meio mês para a WWDC Developers Conference, o repórter de tecnologia Mark Gurman trouxe as últimas notícias sobre a versão AI do Siri. Parece que esse assistente de voz que sempre é reclamado como "retardado artificial" realmente inaugurará. um grande avanço.

A má notícia: alguns de seus maiores recursos podem não chegar este ano.

Apesar disso, Mark Gurman disse que a Apple ainda considera o iOS 18 como a atualização mais importante da história. O Apple WWDC24 será realizado à 1h do dia 11 de junho, horário de Pequim, o APPSO trará a você os relatórios mais recentes no Apple Park, portanto, fique ligado.

O tão esperado, mas promissor, recurso de “aplicativos de controle”

Segundo relatos, com o apoio da IA, o Siri será capaz de “controlar os aplicativos” ainda mais e obter um controle preciso das funções dos aplicativos.

Por exemplo, peça ao Siri para mover arquivos de uma pasta para outra, ou peça ao Siri para abrir uma notícia específica, ou até mesmo peça ao Siri para fornecer um resumo do artigo.

Embora agora você possa usar o Siri para enviar mensagens de texto e até mesmo o WeChat, o Siri baseado na revisão da IA ​​irá além e será capaz de analisar como as pessoas usam seus dispositivos e aprender cada vez mais operações automáticas. A Apple planeja oferecer suporte a “centenas” de comandos nos aplicativos que desenvolve.

▲ A função WeChat de envio da Siri foi implementada no iOS 10

Parece muito bom, mas Gurman disse que esse recurso será inicialmente limitado a aplicativos desenvolvidos pela Apple e não será lançado este ano. Talvez seja necessário esperar até a atualização subsequente do iOS 18 no próximo ano.

E também há notícias de que modelos mais antigos podem ser equipados apenas com A17 Pro iPhone 15 Pro, e Macs acima de M1 podem suportar mais funções locais de IA.

O novo Siri pode ser capaz de entender e executar apenas um comando por vez no início, mas espera-se que ele suporte uma série de comandos no futuro, como gerar um resumo da gravação da reunião gravada (também um recurso que deve ser lançado no iOS 18) e, em seguida, usando e-mail Ao enviá-lo aos colegas, você também pode adicionar diretamente algumas instruções de texto e um conjunto de operações pode ser concluído pelo Siri em uma frase.

Espera-se também que o novo Siri seja igual a outras funções de IA no iOS 18. Haverá um sistema de julgamento para julgar se a tarefa de IA pode ser concluída localmente no dispositivo ou precisa ser executada na nuvem com base no poder de computação necessário.

Se quisermos resumir o desenvolvimento do Siri nos últimos 13 anos, “cuidar dos alunos, mas não cultivá-los” é provavelmente o mais adequado.

Na conferência de lançamento do iPhone 4 em 2011, a Siri fez sua última aparição, o que chocou o público e o mundo. A demonstração do Siri naquela época foi assim: você pode perguntar como está o tempo em uma determinada cidade, ou como está o desempenho de uma determinada ação, e pode definir um lembrete para aparecer automaticamente quando você sair da empresa em um frase também era um recurso muito legal e futurista na época.

Como resultado, 13 anos depois, as funções acima ainda parecem ser os cenários mais usados ​​para o Siri. Mesmo os comandos de controle inicial e de atalho que foram posteriormente suportados ainda são funções geralmente ativadas e desativadas. salto.

Mesmo diante dos desafios de outros assistentes de voz retardatários, como Google Assistant, Microsoft Cortana, Samsung Bixby, etc., e até mesmo o doméstico Xiaomi "Xiao Ai Classmate" está se tornando cada vez mais útil, a Apple ainda não queria fazer progresso até o surgimento do ChatGPT. Perceba que o Siri está atrasado.

▲ Xiao Ai já acessou o modelo grande no ano passado

Embora a Apple pareça apresentá-lo em conferências de imprensa de vez em quando, o Siri tornou-se mais forte novamente, pode compreender mais instruções e fazer mais coisas. Mas, em muitos casos, ser capaz de compreender não significa que possa ser feito e. ser capaz de fazer isso não significa que possa ser bem feito.

Por exemplo, diga ao Siri que quero tirar uma selfie e o Siri o ajudará a abrir a câmera e a câmera frontal sem dizer uma palavra, e então nada mais acontecerá. O usuário ainda precisará estender a mão e clicar no obturador. Às vezes, o Siri salta automaticamente apenas para o aplicativo da câmera, mas não para o modo frontal.

Se for o assistente Bixby da Samsung, ele entrará automaticamente na contagem regressiva para selfies e todo o processo não exigirá realmente nenhuma intervenção do usuário.

O próprio aplicativo de câmera padrão da Apple vem com uma função de contagem regressiva, portanto, a implementação desse processo não requer muitos fatores de IA, mas a Apple simplesmente não torna a experiência boa.

O rival da Siri são os atalhos

Será que você já usou a função "Comandos de atalho"?

Depois que a Apple adquiriu o Workflow, seu produto foi integrado ao iPhone como um “comando de atalho” no iOS 12 e também foi lançado na plataforma Mac no macOS 12.

▲ Comandos de atalho foram integrados à cadeia ecológica da Apple

Esta função pode realizar muitas funções avançadas do iOS, como marcação de ponto com um clique no DingTalk, produção de LivePhotos e vídeos em GIFs com um clique e até operação automática para "desligar automaticamente o despertador durante as férias".

Mas esse recurso não é amigável para usuários novatos. Para criar um novo comando de atalho, o usuário precisa selecionar vários módulos de operação em uma interface semelhante à programação de script, e conectá-los com várias lógicas como "se… então" e "enquanto… então", como como "despertador de férias" "Este tipo de comando de atalho contém uma variedade de julgamentos lógicos e operações automatizadas. Mesmo que os usuários o configurem de acordo com o tutorial, é fácil cometer erros.

Embora a Apple forneça um “Quick Command Center” onde você pode obter scripts prontos diretamente, os comandos de atalho fornecidos são simples e raramente possuem funções que abordam os pontos problemáticos dos usuários.

Esta função é semelhante ao módulo "Good Lock" dos celulares Samsung Galaxy, que oferece funções de personalização muito poderosas, mas o limite não é baixo.

Uma das habilidades mais importantes dos grandes modelos de IA é a capacidade de compreender a linguagem natural e o pensamento lógico. Em outras palavras, se o usuário disser à IA de modelo grande: “Estou fora do trabalho, ajude-me a fazer check-in”, a IA saberá que você pretende realizar as operações de “abrir DingTalk” e “fazer check-in”. ”, em vez de dizer que você “não ouviu”.

O Siri de hoje não está completamente desprovido dessa capacidade. Pedir à Siri para lembrá-lo de comprar um bolo de aniversário para sua família ao sair da empresa é um recurso que foi demonstrado na conferência do iPhone 4s. Por trás dele está também um processo de compreensão da linguagem do usuário e convertê-la em operações relevantes.

▲ Muitas das funções apresentadas na conferência de imprensa da Siri ainda são os principais recursos da Siri agora.

E a Siri, com o suporte de grandes modelos de IA, deverá ser capaz de fazer muito mais do que isso. Os usuários descrevem suas necessidades complexas em linguagem natural. Depois que o Siri as entende, ele as converte na lógica do script e executa as etapas correspondentes por si só. Este é o verdadeiro comando "rápido" sem que o usuário enfrente uma programação complicada.

▲ChatGPT me ensinou como usar atalhos do iOS para definir despertadores de feriados. Embora a lógica seja clara, não parece muito utilizável.

Além de permitir que os usuários personalizem as operações de forma mais natural, você também pode esperar que a Siri se torne uma assistente mais “ativa”.

Se você usar o iPhone por tempo suficiente, descobrirá que, às vezes, o iPhone exibe sugestões automaticamente. Por exemplo, quando um usuário coloca um fone de ouvido Bluetooth, é recomendável ativar o NetEase Cloud Music porque esse é o seu padrão de uso ou ao carregar tarde da noite, o telefone reduz automaticamente a carga de carregamento para manter a bateria, mas isso; ainda pode ser usado antes de acordar. É também porque descobri que você tem o hábito de carregar muito tempo antes de ir para a cama.

Esses são os resultados do aprendizado de máquina e também são as funções de IA nas quais a Apple está trabalhando. As pessoas modernas passam muito tempo no celular todos os dias. É muito comum usar o celular para comprar, comer e trabalhar. Naturalmente, o celular entende melhor a sua existência do que as lombrigas no estômago.

Imagine a poderosa consciência situacional da Apple, juntamente com os recursos de operação automática mais poderosos dos telefones celulares, a versão AI do Siri pode realmente ser transformada em um verdadeiro “assistente pessoal”, prevendo as coisas antes de deixá-las por conta própria. às suas necessidades.

Por exemplo, através das passagens aéreas que você reservou, ele irá ajudá-lo automaticamente a verificar o tempo após a chegada ao seu destino, e também a definir um alarme com antecedência com base em seus hábitos de viagem e condições de trânsito em tempo real, irá ajudá-lo a ligar para um. táxi com antecedência quando você chegar ao aeroporto com base no tempo estimado de viagem. Ele exibe automaticamente suas passagens aéreas e usa o aplicativo para fazer o check-in. Quando você chegar na área local, ele abrirá os restaurantes recomendados de Dianping para você. um assistente pessoal + guia turístico.

Se quisermos realizar esse conjunto de operações tranquilas, é claro que pensaremos nisso, o que exige que tanto os desenvolvedores quanto a Apple sigam em ambos os sentidos. No entanto, a velocidade de desenvolvimento da IA ​​excedeu a nossa imaginação. Talvez no futuro a IA possa imitar diretamente as operações humanas.

UI que podemos entender, a IA também está aprendendo

Embora a operação inteligente do novo Siri só suporte os próprios aplicativos da Apple no estágio inicial, prefiro acreditar que este é apenas o ponto de partida ou o meio da rota AI Siri da Apple, não o fim.

Acredito que o objetivo final da IA ​​​​da Apple é realizar este cenário: acordar de manhã, acordar o Siri com “Siri” e, em seguida, deixá-lo abrir a conta pública do WeChat “Aifan'er” e ler o último artigo em voz alta, sem precisar usar as mãos. A seguir, ouça o relatório matinal de Ai Faner.

▲ Uma capa de telefone conceito para iPhone de muitos anos atrás. A ideia é personificar o "Siri" e liberar as mãos com a voz.

"Comandos de atalho" podem suportar a operação de aplicativos de terceiros, principalmente porque a Apple abriu a API, e os fabricantes de aplicativos de terceiros também podem dividir as operações do aplicativo em módulos que podem ser executados por comandos de atalho.

Mas isso depende se o fabricante do aplicativo está disposto a fornecer módulos e operações relevantes. Por exemplo, se o aplicativo Cainiao não abrir a operação de exibição do código de captação, por mais inteligente que o Siri seja, ele não conseguirá abrir o. Aplicativo Cainiao para exibir o código de coleta por conta própria.

E se dermos um passo adiante e permitirmos que a IA entenda diretamente o que é um código de coleta e onde ele está no aplicativo, e o abra por conta própria após receber instruções?

Isto pode parecer um pouco ficção científica, mas a indústria já está fazendo tentativas relacionadas.

Na Microsoft Build 2024 Developers Conference na semana passada, a Microsoft realizou um evento ao vivo: Copliot suportado pelo GPT-4o pode visualizar o conteúdo na tela em tempo real e orientar os jogadores a jogarem "Minecraft" juntos.

Na demonstração, o Copilot usou uma linguagem bastante suave e natural, até com uma pitada de emoção, para orientar os jogadores a fazerem uma espada no jogo. Nesse processo, o Copilot pode identificar os itens da mochila do jogo e informar ao jogador os materiais que faltam, assim como um “mestre” que o orienta no jogo.

Isso mostra que o assistente de IA não é mais apenas um robô de texto que “pergunta e responde”, ou só pode programar e processar dados em segundo plano, mas pode realmente começar a entender a interface da IU que nós, humanos, vemos, e também podemos sabemos como o operamos.

O "hardware AI" Rabbit R1, que já é popular há algum tempo este ano, basicamente abandonou a interface operacional e completou o uso de vários serviços inteiramente por meio do assistente de voz AI. A empresa Rabbit afirmou que usou um método chamado ". A tecnologia de modelo de IA do Large Action Model "(LAM)) pode imitar operações humanas no servidor após compreender as instruções do usuário e completar diretamente as instruções do usuário em páginas da web e aplicativos relevantes.

▲ Rabbit R1 afirma usar voz para realizar operações entre aplicativos e plataformas.

Embora o desempenho do Rabbit R1 esteja longe da cena retratada, a visão em si é muito bonita. O excelente desempenho de robôs como o GPT-4o na compreensão visual também faz as pessoas sentirem que o futuro da IA ​​substituindo os humanos não está realmente longe. .

Como uma empresa com grande apelo entre os desenvolvedores, a Apple não precisa imitar o uso completo de "LAM" da startup Rabbit. Ela pode abrir interfaces relevantes e fornecer SDKs para permitir que grandes desenvolvedores terceirizados o utilizem em seus aplicativos. operações, trazendo uma experiência de operação de voz mais madura e estável.

Pesquisas relacionadas à Apple mostram que eles têm essa ideia. Em conjunto com os padrões de design de interface do usuário da Apple, o Siri pode entender tudo na tela do iPhone com mais facilidade.

▲ A Apple também está estudando como fazer modelos grandes entenderem a IU

Embora a tecnologia seja inferior aos humanos, a liderança da Apple no número de utilizadores e na construção ecológica pode tornar-se uma vantagem muito poderosa.

9to5Mac prevê e comenta sobre as próximas atualizações de Siri e IA da Apple:

na WWDC. Podemos não ver nada particularmente revolucionário, mas a incorporação da IA ​​em sistemas e aplicações utilizadas por milhões de pessoas todos os dias é uma revolução em si.

Comparados com hardware moderno como o Rabbit R1, os smartphones que todos possuem podem ser a melhor operadora para IA.

O usuário não precisa saber que está usando funções de IA, mas quando pede ajuda à Siri para planejar um plano de viagem e reservar passagens aéreas, a IA já começou a mudar profundamente sua vida.

# Bem-vindo a seguir a conta pública oficial do WeChat do aifaner: aifaner (WeChat ID: ifanr). Mais conteúdo interessante será fornecido a você o mais rápido possível.

Ai Faner | Link original · Ver comentários · Sina Weibo |