BAAI publie Orca, un « world foundation model » pré-entraîné sur 125 000 heures de vidéo et 160 millions d'annotations d'événements
Résumé
L'équipe de Tiejun Huang à la BAAI dévoile Orca, un modèle fondationnel de monde qui unifie vision et langage dans un espace latent partagé via une modélisation de transitions d'états. Pré-entraîné sur 125 000 heures de vidéos et 160 millions d'événements annotés, il alimente trois tâches en aval — génération de texte, prédiction d'images et actions incarnées — avec une dorsale gelée, démontrant la mise à l'échelle du paradigme.
Shared on Bluesky by 3 AI experts
-
BAAI just released the Orca paper 🔥 ( weights coming soon ) huggingface.co/papers/2606.... A Multimodal Latent World Model: it learns the world itself first, and text/images/actions are just different ways to read it o…
View on Bluesky →
Article original publié par huggingface.co
Lire l'article original →Titre original : BAAI publie Orca, un « world foundation model » pré-entraîné sur 125 000 heures de vidéo et 160 millions d'annotations d'événements