Meituan's Largest Recommendation Gain in Two Years Runs on LLM Architecture

Le cadre MTGR de Meituan traite les produits comme des tokens dans une architecture transformer, générant le plus grand gain de qualité de recommandation de la plateforme en deux ans, pour 65 fois le coût de calcul du modèle précédent. Le même changement de paradigme est en cours de déploiement chez Kuaishou, Xiaohongshu et Meta.

Le cadre MTGR de Meituan a appliqué la même classe d’architecture transformer qui alimente les grands modèles de langage à la recommandation de produits, produisant le gain de métriques en ligne le plus important enregistré par la plateforme en deux ans. Le système traite les profils utilisateurs, les historiques de navigation, les comportements en temps réel et les produits candidats comme des séquences de tokens traitées par des couches d’auto-attention empilées. Les taux de clics en ligne ont augmenté de 1,9 % ; les conversions par vue utilisateur ont progressé de 1,02 %. Ce gain résulte d’un passage à une complexité de modèle représentant 65 fois les FLOPs d’inférence du modèle de recommandation par apprentissage profond existant de Meituan — un échange rentable parce que les architectures transformer suivent des lois d’échelle de calcul que les recommandeurs traditionnels ne suivent pas. Le coût d’entraînement est resté globalement stable grâce à une compression de séquences au niveau utilisateur ; le facteur 65x concerne l’inférence sur un seul échantillon, non les dépenses d’entraînement.

MTGR s’appuie sur HSTU, l’Hierarchical Sequential Transduction Unit que Meta a publié en 2024 pour la recommandation générative. HSTU traite l’historique d’engagement d’un utilisateur comme un modèle de langage traiterait un paragraphe : chaque interaction est un token, et l’auto-attention apprend ce qui vient ensuite. Meta a étendu cette approche à 1 500 milliards de paramètres et a rapporté des améliorations de métriques en ligne de 12,4 % sur des surfaces servant des milliards d’utilisateurs. L’adaptation de Meituan réorganise les caractéristiques en quatre types de tokens : attributs utilisateur, clics historiques, comportement en temps réel et produits candidats. Chacun est projeté dans un espace d’embedding partagé, produisant une séquence unifiée que le transformer peut lire. L’ensemble d’entraînement couvrait 210 millions d’utilisateurs et 23,7 milliards d’expositions.

Le transfert du langage au commerce n’est pas une copie conforme. Les modèles de recommandation purement génératifs modélisent le comportement utilisateur par prédiction du token suivant, ce qui implique de supprimer les caractéristiques croisées entre utilisateurs et candidats. Ces caractéristiques croisées capturent des signaux tels que le taux de clics d’un utilisateur spécifique pour une catégorie de restaurant donnée, ou le temps écoulé depuis sa dernière commande auprès d’un commerçant particulier. Les modèles de recommandation traditionnels étaient construits autour de ces signaux. L’étude d’ablation de Meituan a montré que la suppression des caractéristiques croisées effaçait l’intégralité du gain qualité du modèle étendu par rapport au système existant. La solution a consisté à intégrer les caractéristiques croisées dans les tokens candidats et à passer à une perte discriminative — en préservant l’architecture tout en modifiant l’objectif d’entraînement.

L’architecture se transfère du langage au commerce ; l’objectif d’entraînement, non.

Meituan n’est pas seule à reconstruire la recommandation sur cette base. Kuaishou a déployé OneRec sur son flux vidéo principal, unifiant la récupération et le classement en un seul modèle génératif et rapportant une augmentation du temps de visionnage de 1,6 %. L’architecture connexe OneMall a entraîné des gains de GMV de 4,9 % à 14,7 % sur les scénarios e-commerce de Kuaishou. Sur le fil Explore de Xiaohongshu, GenRank gère désormais le classement pour des centaines de millions d’utilisateurs à un coût computationnel quasi équivalent au système qu’il a remplacé. Le fil conducteur : les modèles de recommandation par apprentissage profond traditionnels cessaient de s’améliorer lorsque le calcul augmentait ; les modèles basés sur les transformers, eux, ne s’arrêtent pas.

Meituan a étendu cette approche en février 2026 avec MTFM, un modèle de fondation qui partage un seul backbone transformer sur plusieurs scénarios de recommandation, notamment les listes de restaurants en page d’accueil, les recommandations alimentaires et les offres de bons d’achat. MTFM convertit les données multi-domaines en trois types de tokens couvrant les comportements historiques, les interactions en temps réel et les articles candidats, les entraînant conjointement sans entrées pré-alignées. Les tests A/B en ligne ont montré une augmentation de 2,98 % des commandes pour les recommandations de bons d’achat et de 1,45 % pour les recommandations alimentaires, la latence d’inférence diminuant de 5 à 6 millisecondes par requête.

L’argument contraire est que la recommandation générative fonctionne à l’échelle de Meituan parce que Meituan dispose de la densité de données comportementales nécessaire pour faire émerger des lois d’échelle. La plateforme traite des centaines de millions de requêtes de recommandation quotidiennement, en s’appuyant sur des signaux utilisateurs issus de la livraison de repas, de l’épicerie et des services locaux. Cette hypothèse est plausible, mais seulement si les gains dépendent du volume de données plutôt que de l’avantage structurel des séquences de caractéristiques tokenisées. Les propres résultats de Meta ont montré une mise à l’échelle de la qualité en loi de puissance sur trois ordres de grandeur de calcul d’entraînement, et NVIDIA a publié une implémentation open source de HSTU pour les équipes ne disposant pas de l’infrastructure de Meta. Pour les retailers de taille intermédiaire, le goulot d’étranglement sera peut-être la capacité d’ingénierie, et non les données.

Les retailers de mode dont la découverte produit passe par ces plateformes devraient noter ce qui a changé sous l’interface. Lorsque le moteur de recommandation de Meituan était un modèle d’apprentissage profond traditionnel, l’ajout de calcul n’améliorait pas la qualité des recommandations. Avec le backbone transformer, la qualité s’améliore avec le calcul, ce qui signifie que la compréhension de l’adéquation produit-utilisateur par la plateforme progresse tant que l’investissement se poursuit. Meituan traite déjà des centaines de millions de requêtes de recommandation quotidiennement ; la nouvelle architecture rend chaque requête plus précise à chaque mise à jour du modèle. Si Meituan, Kuaishou et Xiaohongshu restent sur cette courbe d’échelle, les plateformes hébergeant la découverte produit liront les catalogues avec une profondeur qu’aucune couche de recommandation propriétaire de marque ne peut égaler. Le catalogue est le vocabulaire ; le modèle décide de ce qu’il signifie.