huggingface.co détecté sur le web

BeyondArena montre les limites des foundation models tabulaires

enterprise ai ai-research

TL;DR

  • Le benchmark BeyondArena évalue 11 modèles sur 142 jeux de données tabulaires couvrant des tâches IID, temporelles et groupées.
  • Les foundation models tabulaires ne dominent que sur les données IID de taille petite à moyenne d'après l'étude.
  • Les méthodes à base d'arbres et le deep learning classique restent supérieurs sur les données non-IID, grandes et à haute dimensionnalité.

Une intuition circule depuis deux ans dans la recherche ML sur données tabulaires: si les foundation models ont transformé le langage et la vision, la même recette devrait finir par marcher sur les tableaux Excel. Un papier publié fin juin sur Hugging Face par une équipe menée par Lennart Purucker, avec Gaël Varoquaux et Frank Hutter parmi les co-auteurs, vient nuancer sérieusement cette intuition.

Le benchmark s'appelle BeyondArena. Il rassemble 142 jeux de données curatés et évalue 11 modèles sur des tâches IID classiques, mais aussi sur des splits temporels et des données groupées, avec des colonnes de texte et de la haute cardinalité. Le constat des auteurs est net: les foundation models tabulaires actuels excellent sur les données IID de taille petite à moyenne, mais les méthodes à base d'arbres et le deep learning classique restent dominants dès qu'on passe sur des données non-IID, larges ou à haute dimensionnalité.

L'intérêt pour qui ne fait pas de recherche en foundation models tabulaires, c'est que beaucoup de cas d'usage en production tombent précisément dans les régimes où les nouvelles approches perdent: séries temporelles, journaux d'événements groupés par utilisateur, jeux avec colonnes de texte libre, tables à plusieurs milliers de features. Le message implicite, c'est que les benchmarks standards sur lesquels les foundation models brillent ne reflètent pas la majorité des problèmes réels, et que les progrès récents ont surtout été des gains marginaux sur IID.

Le papier accompagne sa publication d'un framework Python baptisé Data Foundry, présenté comme un schéma de métadonnées et un outil de curation pour standardiser les protocoles d'évaluation tabulaires. C'est la brique qui rend l'exercice reproductible et que d'autres équipes pourront prolonger.

La nuance honnête, c'est que 11 modèles sur 142 jeux de données reste une photographie à un instant donné, et le résumé public ne précise pas la liste exhaustive des modèles testés ni leurs configurations. Ce que le papier ne donne pas non plus, ce sont des éléments souvent décisifs en production comme la latence d'inférence ou le coût mémoire. Mais l'orientation, pousser la recherche vers de vrais modèles fondamentaux du tabulaire plutôt que vers des gains marginaux sur IID, est exactement le genre de cadre dont le domaine avait besoin pour progresser.