Uma semana, toda a vanguarda. Em modelos, os pesos abertos vão hoje de um coloso de 1,6 trilhão de parâmetros a um modelo de 230M que roda num Raspberry Pi. Em modelos de mundo e robótica, uma startup treina agentes com videogames para controlar robôs reais e a equipe de Yann LeCun deixou os modelos de mundo 48× mais rápidos. Em medicina, o GPT-5 Pro resolveu um mistério de imunologia de três anos e um fundador usou o Claude para interpretar os próprios exames de imagem de câncer. E os agentes que fazem tudo isso chegaram a todos os celulares, e a uma nova superfície de ataque. Abaixo: os avanços de destaque, as joias menos conhecidas e onde já está dando resultado.

Descubra tudo do AI Weekly

Mais sinal, menos ruído. Escolha seus canais.

Você está lendo o resumo semanal. Abaixo estão as outras formas de acompanhar a atualidade da IA: todas gratuitas e fáceis de cancelar.

  • → Explore os 16 deep dives
    Newsletters semanais por tema: IA generativa, Machine Learning, IA nos negócios, Robótica, Pesquisa de ponta, Geopolítica, Saúde e muito mais.
    Veja os 16 deep dives →
  • → Alertas de IA de última hora
    Quando acontece algo importante (uma aquisição de 60 bilhões de dólares, a reunião de emergência de um regulador, o vazamento de um modelo de ponta), os inscritos nos alertas ficam sabendo em poucas horas. Em média 0 a 2 e-mails por dia.
    Receber alertas de última hora →
  • → Atualidade IA (ao vivo)
    Painel ao vivo atualizado conforme o scanner encontra notícias: notícias pontuadas das últimas 48 horas, entidades que mais se movem na semana e linhas de tendência trimestrais de 113 empresas, pessoas e temas de IA.
    Ver Atualidade IA →

Quick Hits

Modelos que você pode rodar

  • DeepSeek lançou um modelo aberto de 1,6 trilhão de parâmetros que você pode baixar hoje — O V4-Pro é um modelo de mistura de especialistas de 1,6 trilhão de parâmetros (49B ativos por token), com licença MIT e uma janela de contexto de 1 milhão de tokens. Seu módulo de speculative decoding DSpark roda essa inferência de 1 milhão de tokens com cerca de um quarto da computação e um décimo do cache KV da geração anterior. A variante Max atinge notas de programação no nível de ponta: 93,5% no LiveCodeBench e 80,6% no SWE-Verified. Os modelos mais capazes são cada vez mais os que qualquer um pode baixar de graça no Hugging Face. [Hugging Face]
  • O novo modelo de 230M da Liquid AI roda num Raspberry Pi e supera modelos de mais do dobro do seu tamanho — O LFM2.5-230M (230M de parâmetros, 19 trilhões de tokens de treinamento, 32K de contexto) decodifica a 42 tokens/seg num Raspberry Pi 5 e a 213/seg num Galaxy S25 Ultra, com suporte desde o primeiro dia em llama.cpp, MLX, vLLM e ONNX. Supera o Granite 4.0-350M da IBM e o Gemma 3 1B em seguir instruções e uso de ferramentas, e a Liquid rodou o modelo num humanoide Unitree G1, totalmente no dispositivo, como a camada que transforma comandos em linguagem natural em chamadas de ferramentas. A vanguarda não está só ficando maior: está ficando pequena o bastante para rodar em qualquer lugar. [Liquid AI]

Modelos de mundo e robótica

  • Uma startup levantou 320 milhões de dólares para treinar agentes de IA com videogames, e o mesmo modelo dirige um robô — A General Intuition levantou 320 milhões de dólares com uma avaliação de 2,3 bilhões (entre os investidores estão Jeff Bezos e Eric Schmidt) para treinar agentes com milhões de horas de gameplay, usando os rótulos de ação botão a botão do que os jogadores apertaram e quando. O detalhe: o mesmo modelo que joga com um personagem de videogame também guiou um robô quadrúpede pelo escritório. Um cérebro, dois corpos. [TechCrunch]
  • Os robôs humanoides acabam de ganhar seu primeiro sistema de segurança completo — O Halos for Robotics, da NVIDIA, reúne computação de segurança de nível industrial (IGX Thor), uma ponte de sensores Holoscan, uma camada de segurança Halos OS e um laboratório de certificação; o primeiro parceiro, a Agility, está integrando tudo ao Digit, o humanoide que já trabalha nos galpões da Amazon. O gargalo da IA incorporada está mudando de "será que ele se move?" para "será que ele se move com segurança perto das pessoas?". [NVIDIA]

IA em medicina e ciência

  • O GPT-5 Pro resolveu um mistério de imunologia de três anos no The Jackson Laboratory — Desde 2022, o imunologista Derya Unutmaz tinha dados de citometria de fluxo que não conseguia explicar: bloquear o metabolismo da glicose em células T humanas e depois ativá-las as empurrava para um estado inflamatório. O GPT-5 Pro propôs o mecanismo (uma glicosilação ligada a N alterada) e previu corretamente o resultado de um experimento com linfoma que ele já havia feito e mantido em reserva. Unutmaz chamou aquilo de "uma constatação notável". Não uma nota em benchmark: uma pergunta em aberto de um laboratório de verdade, resolvida. [OpenAI]
  • Um fundador usou o Claude para interpretar os próprios exames de imagem de câncer e evitou uma radioterapia desnecessária — Diagnosticado com um linfoma raro, Connor Christou, da Keragon, alimentou o Claude com seus exames de sangue, seus escaneamentos, os dados do seu wearable e seus diários. Quando o PET de fim de tratamento veio ambíguo (para o tipo de câncer dele, esses exames têm cerca de 60% de falsos positivos), o Claude apontou como causa provável um rebote benigno do timo, com cerca de 90% de probabilidade. Três médicos confirmaram: sem doença ativa, sem radioterapia. Ele faz questão de dizer que a ferramenta o ajudou a fazer as perguntas certas; não substituiu os médicos. [TechCrunch]

Agentes em ação

  • OpenAI Codex Remote agora está em todos os planos do ChatGPT e funciona do seu celular — O agente autônomo de programação do Codex chegou à disponibilidade geral em todos os níveis de assinatura, com apps para iOS e Android que pareiam com um Mac ou Windows por código QR e um plugin da DigitalOcean que provisiona automaticamente um espaço de trabalho na nuvem. O agente de programação saiu do IDE: agora você pode iniciar, acompanhar e aprovar um build da plataforma de uma estação de trem. [OpenAI]
  • Um repositório do GitHub de aparência limpa pode enganar seu agente de programação com IA e fazê-lo rodar malware — A equipe 0DIN da Mozilla mostrou uma armadilha em três etapas: um repositório de aparência normal, uma etapa de instalação que "dá erro" e manda o agente rodar python3 -m axiom init, comando que baixa silenciosamente um payload de um registro DNS controlado pelo atacante e abre um shell reverso. Nas palavras dos pesquisadores, "o Claude Code nunca decidiu abrir um shell: ele decidiu corrigir um erro". O payload pode ser trocado via DNS, então o repositório passa numa revisão limpa e muda depois. [BleepingComputer]

A economia da IA aplicada deixou de ser uma promessa

Por dois anos, a crítica à IA foi que a capacidade era real, mas o negócio não. Esta semana o negócio apareceu, e em três indústrias diferentes de uma vez.

A Adobe fechou a aquisição da Topaz Labs, a empresa premiada com um Emmy por suas ferramentas de IA de upscaling e restauração de imagem, para integrar seus modelos de melhoria no dispositivo ao Firefly e ao Creative Cloud: uma empresa consolidada comprando a vanguarda em vez de esperar para reconstruí-la. Na área da saúde, a insurtech francesa Alan levantou 480 milhões de euros numa rodada liderada pela Prosus, com avaliação de 5,5 bilhões para escalar o "seguro de prevenção", um modelo assistido por IA que já fatura mais de 800 milhões de euros em receita recorrente anual em quatro países. E dentro dos laboratórios a mudança é ainda mais marcante: os próprios dados da OpenAI dizem que 97,9% dos seus funcionários agora usam agentes do Codex, com o uso por quem não é desenvolvedor multiplicado por mais de cem desde o fim de 2025 (tudo autorrelatado, vale notar).

O padrão diz tudo. As aquisições, as rodadas de nove dígitos, a adoção interna quase total: não são apostas no que a IA poderia fazer. É dinheiro gasto no que ela já faz.

Pontos principais

  • A vanguarda aberta vai de cima a baixo. Um modelo de 1,6 trilhão de parâmetros que você pode baixar (DeepSeek V4-Pro) e um de 230M que roda num Raspberry Pi e supera modelos de mais do dobro do seu tamanho (Liquid LFM2.5). Esta semana, tanto os modelos mais capazes quanto os mais fáceis de implantar foram abertos.
  • A IA está aprendendo a agir no mundo físico. Um modelo treinado em gameplay agora dirige um robô quadrúpede (General Intuition); o modelo de mundo de Yann LeCun planeja 48× mais rápido (abaixo); um modelo de 230M controla um humanoide; e os robôs ganharam sua primeira pilha de segurança de verdade (NVIDIA Halos). Modelos de mundo e robótica deixaram de ser problemas separados.
  • A medicina é onde o "aplicado" fica real. O GPT-5 Pro fechou uma questão de imunologia de três anos com uma previsão verificável, e o Claude flagrou um achado benigno num exame que poupou um paciente da radioterapia: nos dois casos com um especialista humano no circuito, que é exatamente o ponto.
  • A economia da IA aplicada agora está gastando dinheiro. Adobe comprando a Topaz, os 480 milhões de euros da Alan, os 200 milhões de dólares da Quantifind, o uso interno quase total do Codex na OpenAI: o capital está indo para o que a IA já faz, não para o que ela poderia fazer.

Vale a pena ler

  • A equipe de Yann LeCun construiu um modelo de mundo que planeja 48× mais rápido, com 15M de parâmetros — O LeWorldModel é o primeiro modelo de mundo estável, ponta a ponta e baseado em pixels a resolver o problema do "colapso de representação" do JEPA, e é minúsculo: 15M de parâmetros, treinável numa única GPU em questão de horas, e planeja até 48× mais rápido que modelos de mundo baseados em modelos fundacionais. Modelos de mundo são como um robô imagina seu próximo movimento antes de executá-lo, e isso barateia esse processo. [arXiv]
  • JetSpec leva o speculative decoding a uma aceleração de 9,64× — O Hao AI Lab da UCSD construiu uma cabeça de "causal parallel tree drafting" que atinge até 9,64× de aceleração ponta a ponta em raciocínio matemático (Qwen3-8B no MATH-500) e 4,58× em chat aberto, com ganhos de mais de 7× em benchmarks de código. O speculative decoding não para de quebrar o próprio teto. [GitHub]
  • DeepSeek abriu o código do stack de treinamento por trás da inferência rápida — O DeepSpec é uma base de código completa, com licença MIT, para treinar e avaliar os "modelos de rascunho" de speculative decoding (DSpark, DFlash e Eagle3) que fazem os modelos grandes gerarem mais rápido, com scripts de preparação de dados, treinamento e avaliação que funcionam em diferentes arquiteturas, incluindo Gemma e Qwen. A receita que os laboratórios tratam como vantagem proprietária agora é pública. [GitHub]
  • Um novo estudo joga fora 87% da memória de um LLM e obtém respostas melhores — O InfoKV adiciona entropia preditiva e a mudança de representação por camada à compressão do cache KV para manter os tokens que os métodos baseados só em atenção descartam. Num benchmark de contexto longo, manteve apenas de 12,5 a 25% do cache e superou a linha de base com cache completo, com a diferença aumentando conforme o contexto crescia para 64k tokens. A restrição que limita o raciocínio de contexto longo é o cache, e isso o gerencia de forma mais barata. [Hugging Face]
  • Seis dos dez maiores bancos acabam de apostar 200 milhões de dólares que a IA pega a fraude que eles deixam passar — A Quantifind levantou 200 milhões de dólares numa rodada liderada pela Summit Partners (com Citi Ventures e S&P Global) para colocar agentes de IA governados para atuar sobre os alertas de crimes financeiros; ela já atende seis dos dez maiores bancos do mundo. Uma análise da Celent citada na rodada estima que um banco de primeiro nível poderia cortar os custos de processamento de alertas em até 177,9 milhões de dólares por ano. [PR Newswire]
  • Claude agora é um membro do seu Slack, não uma janela de chat — O Claude Tag permite que times marquem @Claude num canal; ele monta o contexto a partir do histórico do canal e age com as ferramentas, os dados e as bases de código que receber. A Anthropic diz que sua versão interna já escreve 65% do código do seu time de produto. Compartilhado esta semana por 5 dos especialistas em IA que acompanhamos. [Anthropic]
  • Nature: o viés de um modelo não é projetado, ele vem embutido nos dados de treinamento — Documentos em chinês que coincidem com a mídia coordenada pelo Estado aparecem num conjunto de treinamento típico a uma taxa cerca de 41× a da Wikipédia em chinês. Pré-treinar com apenas 6.400 documentos redigidos pelo Estado fez um modelo open-weight dar respostas pró-governo em quase 80% das vezes. A cadeia de suprimentos que você não consegue auditar é o corpus. [Nature]
  • As ferramentas de contratação com IA não só discriminam: elas rejeitam você em todo lugar de uma vez — A Stanford HAI estudou 4 milhões de candidaturas em 1.700 vagas de 150 empregadores e descobriu que 10% dos candidatos que se inscreveram em quatro vagas foram rejeitados em todas elas: um padrão de "rejeição sistêmica" que não aparece sem a triagem algorítmica, além das disparidades raciais que auditorias agregadas escondem. [Stanford HAI]
  • A Copa do Mundo movida a IA funciona com milhares de trabalhadores de dados humanos — Os dados em tempo real das partidas da Copa do Mundo de 2026 são produzidos por anotadores no Brasil, nas Filipinas, na Índia, no Egito e no Leste Europeu, que marcam à mão até 3.000 ações por partida por cerca de 70 dólares o jogo. Por trás de cada estatística "automatizada" há uma pessoa assistindo à gravação. Compartilhado esta semana por 5 dos especialistas em IA que acompanhamos. [Rest of World]

Wait, What?

  • Uma IA projetou um hambúrguer que vence o Big Mac, e o planeta também sai ganhando — Num estudo revisado por pares na npj Science of Food, pesquisadores de Stanford construíram o "BurgerAI" a partir de 2.216 receitas do Food.com usando a mesma matemática de difusão por trás dos geradores de imagem. Num teste de degustação às cegas com 101 pessoas, seus hambúrgueres igualaram ou superaram o Big Mac em preferência, sabor e textura; a versão com cogumelos teve um impacto ambiental uma ordem de magnitude menor, e a versão com feijão quase dobrou o valor nutricional. O enquadramento é a verdadeira manchete: a IA generativa indo "da previsão ao design". [npj Science of Food]
  • O maior especialista mundial em deepfakes já não confia nos próprios olhos — Hany Farid passou duas décadas como o especialista de referência em perícia digital, capaz de distinguir uma imagem real de uma falsa. Depois que sua própria pesquisa mostrou que a maioria das pessoas já não consegue, ele mesmo começou a falhar nos próprios testes. "Cada imagem que vejo, fico traçando linhas para as sombras e fazendo geometria de cabeça… Dentro de um ou dois anos, todo o nosso sistema visual vai ficar completamente inútil."

A enquete desta semana

Uma semana recheada de conteúdo em todas as frentes. Qual canto da vanguarda você está acompanhando mais de perto?

— Alexis