BAAI publie Orca, un « world foundation model » pré-entraîné sur 125 000 heures de vidéo et 160 millions d'annotations d'événements
Summary
L'équipe de Tiejun Huang à la BAAI dévoile Orca, un modèle fondationnel de monde qui unifie vision et langage dans un espace latent partagé via une modélisation de transitions d'états. Pré-entraîné sur 125 000 heures de vidéos et 160 millions d'événements annotés, il alimente trois tâches en aval — génération de texte, prédiction d'images et actions incarnées — avec une dorsale gelée, démontrant la mise à l'échelle du paradigme.
Shared on Bluesky by 3 AI experts
-
BAAI just released the Orca paper 🔥 ( weights coming soon ) huggingface.co/papers/2606.... A Multimodal Latent World Model: it learns the world itself first, and text/images/actions are just different ways to read it o…
View on Bluesky →
Originally reported by huggingface.co
Read the original article →Original headline: BAAI publie Orca, un « world foundation model » pré-entraîné sur 125 000 heures de vidéo et 160 millions d'annotations d'événements