huggingface.co détecté sur le web

Yale-Google: RLMF améliore la calibration de Llama et Qwen

safety hallucinations fine-tuning llm-alignment uncertainty

TL;DR

  • RLMF fait passer la métrique cMFG* de 0,60 à 0,84 sur Llama3.1-8B-Instruct et de 0,54 à 0,83 sur Qwen3-8B.
  • Entraînés uniquement sur PopQA, les modèles calibrés généralisent à dix jeux de données couvrant plus de six domaines de contenu.
  • Les auteurs rapportent que RLMF dépasse un RL standard « jusqu'à 63 % » et bat GPT-5 de 37 % sur cette métrique.

L'idée est simple à énoncer, difficile à faire tenir dans un modèle: quand un LLM répond, son degré de certitude exprimé devrait ressembler à sa certitude interne. Un travail conjoint de Yale et Google Research, publié sur Hugging Face, propose une méthode d'apprentissage par renforcement qui pousse justement dans cette direction.

Les auteurs (Gabrielle Kaili-May Liu et Arman Cohan côté Yale, Avi Caciularu, Gal Yona et Idan Szpektor côté Google Research) appellent leur approche RLMF, pour Reinforcement Learning with Metacognitive Feedback. Le principe: pendant l'optimisation par préférences, on module les avantages des complétions en fonction de la qualité avec laquelle le modèle juge sa propre performance. Le pipeline est décomposé en deux étapes, d'abord une calibration numérique des scores de confiance, ensuite une réécriture ciblée qui transforme ces scores en formulations linguistiques d'incertitude adaptées au contexte.

Les résultats reportés sont notables. Sur Llama3.1-8B-Instruct, la métrique cMFG* passe de 0,60 en baseline à 0,84 avec RLMF; sur Qwen3-8B, de 0,54 à 0,83. Les auteurs annoncent que RLMF dépasse un RL standard « jusqu'à 63 % » et qu'entraînés uniquement sur PopQA, les modèles généralisent à 10 jeux de données couvrant plus de six domaines de contenu. Ils rapportent aussi des gains de 37 % sur GPT-5, 17 % sur Gemini-3.1-Pro et 25 % sur Gemini-3-Flash sur cette même métrique.

Le côté honnête du travail: cMFG* est une métrique proposée par les auteurs eux-mêmes, et la reproduction hors du protocole exact reste à démontrer. L'évaluation humaine annonce 96 % de préférence en pertinence contextuelle contre la meilleure baseline (FUT), avec un accord inter-annotateurs de 0,93, mais la taille et le mode de sélection du panel ne sont pas explicités dans le matériel disponible. Ce que le rapport ne donne pas non plus, c'est un chiffrage du coût compute face à un simple prompting métacognitif comme MetaFaith, ni de tests au-delà de l'échelle 8B.

Pour un praticien, la direction est ce qui intéresse. Si un signal métacognitif suffit à faire dire à un modèle « je ne sais pas » de manière fidèle sans casser la précision de tâche, cela réduit un des risques les plus concrets du déploiement en production.