huggingface.co détecté sur le web

LISA : une régularisation par alignement de score de vraisemblance accélère l'entraînement des réseaux dual-branch pour la génération visuelle contrôlable image et vidéo

generative ai computer vision video generation diffusion-models visual-generation training-efficiency

Résumé

Des chercheurs de l'HKUST et de Huawei Research proposent LISA (LIkelihood Score Alignment), une régularisation légère appliquée à la branche auxiliaire des architectures dual-branch (type ControlNet) pour la génération image et vidéo contrôlable. La méthode aligne explicitement les features intermédiaires de la branche side avec un score de vraisemblance approché via un décodeur léger, accélérant la convergence d'entraînement et améliorant la qualité finale sur plusieurs benchmarks. LISA est compatible avec les pipelines diffusion et flow matching existants sans modification architecturale majeure.