Baidu publie Unlimited-OCR sous licence MIT : un modèle MoE de 3 milliards de paramètres qui dépasse DeepSeek-OCR sur OmniDocBench
Summary
Baidu publie Unlimited-OCR, un modèle MoE de 3 milliards de paramètres (500 M activés) capable de traiter des documents entiers en une seule passe grâce à une architecture Reference Sliding Window Attention (R-SWA) qui maintient le cache KV constant quelle que soit la longueur du document. Le modèle atteint 93,92 % sur OmniDocBench v1.6 — contre 87,01 % pour DeepSeek-OCR sur v1.5 — et est publié sous licence MIT, compatible avec vLLM, SGLang, Transformers et llama.cpp.
Shared on Bluesky by 3 AI experts
-
Unlimited-OCR 🔥New OCR from Baidu huggingface.co/baidu/Unlimi... It can parse hundreds of pages in a single pass while maintaining stable speed. The key is R-SWA (Reference Sliding Window Attention), which keeps KV c…
View on Bluesky →
Originally reported by huggingface.co
Read the original article →Original headline: Baidu publie Unlimited-OCR sous licence MIT : un modèle MoE de 3 milliards de paramètres qui dépasse DeepSeek-OCR sur OmniDocBench