DataEvolver: quatre agents évoluent à partir des rejets OCR
TL;DR
- DataEvolver, proposé par Central South University et HKUST, articule quatre agents (Retriever, Verifier, Critic, Generator) autour d'une mémoire de feedback qui recycle les échantillons rejetés.
- À l'échelle 0,75M sur PixArt-α, la méthode améliore l'OCR-F1 de 85,3 % sur TextScenesHQ et de 35,3 % sur LongTextBench face à la meilleure baseline publique.
- Les gains se transfèrent à Show-o2, indiquant selon les auteurs que le bénéfice tient à la construction des données plutôt qu'à un générateur en aval particulier.
Rares sont les pipelines de données d'entraînement qui apprennent de leurs propres échecs. Un papier publié sur Hugging Face par des chercheurs de Central South University et de The Hong Kong University of Science and Technology propose exactement ça pour la génération d'images riches en texte, ce cas particulièrement pénible où le modèle doit à la fois faire une image crédible et y écrire des caractères lisibles et bien alignés.
Le cadre s'appelle DataEvolver et il s'attaque au paradigme dominant que les auteurs qualifient de "static crawl–filter–freeze": on collecte, on filtre une fois, on gèle le dataset, et on jette les échantillons rejetés. L'observation centrale du papier, c'est que ces rejets contiennent des signaux utiles, erreurs OCR, désalignements sémantiques, motifs qui se répètent. DataEvolver instancie quatre agents coopératifs pour exploiter ces signaux: un Retriever qui va chercher des candidats, un Verifier qui note et catalogue les causes de rejet, un Critic qui résume ces retours en feedback en langage naturel, et un Generator qui complète les zones sous-couvertes par synthèse ciblée. La mémoire de feedback ainsi mise à jour oriente le round suivant.
Les chiffres mis en avant sont ceux d'expériences à budget de données égal. À l'échelle 0,75M sur PixArt-α, DataEvolver améliore l'OCR-F1 de 85,3 % sur TextScenesHQ et de 35,3 % sur LongTextBench par rapport à la meilleure baseline publique, comparée notamment à AnyWord et MARIO. Les auteurs indiquent que les gains se transfèrent aussi à Show-o2, ce qui suggère que la valeur ajoutée vient de la couche de construction des données plutôt que d'un générateur particulier. Le code est annoncé sur la page projet GitHub.
Le caveat honnête, c'est que le papier reste un preprint et que les gains sont mesurés à une échelle académique (0,75M d'échantillons) avec des benchmarks OCR-centriques; ce que le résumé ne dit pas, c'est le coût compute d'orchestrer quatre agents à chaque round, ni comment la méthode se comporte hors des scripts latins ou aux échelles industrielles. Reste que pour les équipes qui construisent des modèles texte-dans-l'image, l'idée de traiter les rejets comme diagnostic plutôt que comme déchet est le genre de recadrage méthodologique qui peut se réutiliser au-delà de ce cas d'usage.
Article original publié par huggingface.co
Lire l'article original →Titre original : DataEvolver : un cadre multi-agents auto-évolutif transforme la construction de données pour la génération d'images riches en texte