huggingface.co détecté sur le web

HKUST-Baidu : Self-Flow gagne par augmentation, pas attention

baidu generative ai ai-business

TL;DR

  • En bloquant l'attention entre tokens de bruits différents sur SiT-B, les auteurs font passer le FID de 25,19 à 25,06 et l'IS de 66,75 à 72,94 à 800K itérations.
  • Sur SiT-XL/2 en ImageNet 256×256, la recette combinée atteint FID 1,44 et IS 315,3 en 4M pas, contre 2,06 et 270,3 pour SiT-XL/2 vanille à 7M pas.
  • Sur ImageNet 512×512, la méthode égale REPA à FID 2,08 en 1M pas et affiche l'IS le plus élevé du benchmark, 282,7, sans encodeur externe.

Un petit article sur Hugging Face Papers vaut le détour parce qu'il retourne l'explication officielle d'une des accélérations à la mode dans l'entraînement des diffusion transformers. Signé Dengyang Jiang, Mengmeng Wang, Harry Yang et Jingdong Wang, entre HKUST, Zhejiang University of Technology et Baidu, il s'intitule "From SRA to Self-Flow: Data Augmentation or Self-Supervision?" et démontre, benchmarks à l'appui, que le gain de Self-Flow sur SRA ne vient pas de ce que ses auteurs originaux avaient annoncé.

Rappel du décor : SRA et Self-Flow entraînent un DiT en alignant ses propres couches (auto-supervision interne) au lieu de s'appuyer sur un encodeur externe comme DINOv2. Self-Flow ajoute un "dual-timestep scheduling" où deux niveaux de bruit coexistent dans la même image, avec l'idée que les tokens propres aident les tokens bruités via l'attention. Les auteurs testent cette hypothèse avec un dispositif simple, l'"Attention Separation" : on garde le double timestep mais on bloque l'attention entre les deux groupes de tokens. Si la théorie officielle était juste, le FID devrait empirer. Il n'empire pas. Sur SiT-B en ImageNet 256×256, à 800K itérations, le FID passe de 25,19 à 25,06 et l'IS de 66,75 à 72,94 quand on interdit ces interactions.

La conclusion des auteurs est que le dual-timestep fonctionne d'abord comme une augmentation de données le long de la dimension du bruit, et que le masque bloc-diagonal lui-même agit comme une deuxième augmentation en découpant chaque image en vues partielles. Empilé sur SiT-XL/2, cela donne un FID de 1,44 et un IS de 315,3 en 4M pas sur ImageNet 256×256, contre 2,06 et 270,3 pour la baseline SiT-XL/2 à 7M pas. En 512×512, la méthode égale REPA à 2,08 de FID en 1M pas et prend le meilleur IS du tableau à 282,7, sans encodeur externe.

Les réserves honnêtes sont importantes. Toutes les mesures sont sur ImageNet et sur des SiT ; les affirmations les plus fortes de Self-Flow portaient sur du texte-image, du texte-vidéo et du texte-audio à grande échelle, hors du périmètre de ce papier. Un mauvais ratio de masque (α=0,50) fait exploser le FID à 38,19 avant qu'un mélange d'échantillons full-image ne le ramène à 24,15, donc la recette n'est pas plug-and-play. Ce que le papier ne fournit pas non plus, c'est une évaluation de la qualité des représentations internes apprises, ni de coût matériel comparé pour justifier un remplacement de REPA en production.

Ce qui reste utile : une piste concrète pour les équipes frugales qui entraînent des DiT sans DINOv2, et un rappel méthodologique sain, avant de crédit une astuce d'"auto-supervision" pour un gain, vérifier que ce n'est pas juste de l'augmentation de données déguisée.