huggingface.co détecté sur le web

Qwen-Image-Agent : un cadre agentique unifié d'Alibaba comble le « context gap » dans la génération d'images en conditions réelles

alibaba agents multimodal generative ai computer vision agentic-image-generation multimodal image-ai

Résumé

Qwen-Image-Agent (équipe Alibaba) propose un pipeline agentique training-free qui intègre planification, raisonnement, recherche web, mémoire et boucle de feedback pour combler le « context gap » entre requêtes utilisateur sous-spécifiées et génération d'images. Sur le nouveau benchmark IA-Bench (730 instances, 17 sous-tâches, 1 801 items d'évaluation), il surpasse Nano Banana Pro et GPT-Image-1.5 avec un IA-score de 45,4 contre 43,1 et 35,7. Le framework est compatible avec tout générateur d'images existant et introduit également WISE-Verified comme nouveau benchmark de connaissance du monde pour l'évaluation agentique.