AI Infrastructure

Meituans größter Empfehlungsgewinn seit zwei Jahren läuft auf LLM-Architektur

Meituans MTGR-Framework behandelt Produkte als Tokens in einer Transformer-Architektur und erzielt den größten Qualitätsgewinn bei Empfehlungen seit zwei Jahren – bei 65-fachem Rechenaufwand gegenüber dem Vorgängermodell. Dasselbe Paradigma wird bei Kuaishou, Xiaohongshu und Meta eingesetzt.

A nautilus examining a mosaic wall where restaurant logos and product icons are arranged sequentially like words, connected by faint attention-weight lines

Neritus Vale

Meituans MTGR-Framework überträgt dieselbe Transformer-Architektur, die Large Language Models antreibt, auf Produktempfehlungen – und erzielt damit den größten Online-Metrik-Gewinn, den die Plattform seit zwei Jahren verzeichnet hat. Das System verarbeitet Nutzerprofile, Browserverlauf, Echtzeitverhalten und Kandidatenprodukte als Token-Sequenzen, die durch gestapelte Self-Attention-Schichten laufen. Die Click-Through-Rate stieg um 1,9 %; die Conversion pro Nutzeransicht um 1,02 %. Der Gewinn kam durch eine Skalierung der Modellkomplexität auf das 65-fache der Inferenz-FLOPs von Meituans bisherigem Deep-Learning-Empfehlungsmodell – ein Tausch, der funktioniert, weil Transformer-Architekturen Compute-Skalierungsgesetzen folgen, die traditionelle Empfehlungssysteme nicht kennen. Die Trainingskosten blieben durch nutzerseitige Sequenzkompression in etwa gleich; der Faktor 65 bezieht sich auf die Inferenz eines einzelnen Samples, nicht auf den Trainingsaufwand.

MTGR baut auf HSTU auf, der Hierarchical Sequential Transduction Unit, die Meta 2024 für generative Empfehlungssysteme veröffentlicht hat. HSTU behandelt den Interaktionsverlauf eines Nutzers wie ein Sprachmodell einen Absatz: Jede Interaktion ist ein Token, und Self-Attention lernt, was als nächstes kommt. Meta skalierte den Ansatz auf 1,5 Billionen Parameter und meldete 12,4 % Verbesserungen bei Online-Metriken auf Oberflächen mit Milliarden von Nutzern. Meituans Adaption gliedert Features in vier Token-Typen: Nutzerattribute, historische Klicks, Echtzeitverhalten und Kandidatenprodukte. Jeder wird in einen gemeinsamen Einbettungsraum projiziert und ergibt so eine einheitliche Sequenz, die der Transformer lesen kann. Der Trainingsdatensatz umfasste 210 Millionen Nutzer und 23,7 Milliarden Impressionen.

Die Übertragung von Sprache auf Commerce ist keine einfache Kopie. Rein generative Empfehlungsmodelle modellieren Nutzerverhalten durch Next-Token-Prediction – was voraussetzt, dass Cross-Features zwischen Nutzern und Kandidaten entfernt werden. Cross-Features erfassen Signale wie die Click-Through-Rate eines bestimmten Nutzers für eine bestimmte Restaurantkategorie oder die Zeit seit der letzten Bestellung bei einem bestimmten Händler. Traditionelle Empfehlungsmodelle wurden genau um diese Signale herum gebaut. Meituans Ablationsstudie ergab, dass das Entfernen der Cross-Features den gesamten Qualitätsgewinn des skalierten Modells gegenüber dem bestehenden System zunichtemachte. Die Lösung: Cross-Features in Kandidaten-Tokens einbetten und auf diskriminativen Loss umstellen – die Architektur bleibt erhalten, das Trainingssziel ändert sich.

Die Architektur lässt sich von Sprache auf Commerce übertragen; das Trainingssziel nicht.

Meituan steht damit nicht allein. Kuaishou hat OneRec in seinem Haupt-Videofeed eingeführt, das Retrieval und Ranking in einem einzigen generativen Modell vereint und eine Steigerung der Wiedergabezeit um 1,6 % meldet. Die verwandte OneMall-Architektur erzielte GMV-Gewinne von 4,9 % bis 14,7 % in Kuaishous E-Commerce-Szenarien. Im Explore Feed von Xiaohongshu übernimmt GenRank nun das Ranking für Hunderte Millionen Nutzer – bei nahezu gleichem Rechenaufwand wie das ersetzte System. Der gemeinsame Nenner: Traditionelle Deep-Learning-Empfehlungsmodelle verbesserten sich nicht mehr, wenn der Rechenaufwand stieg; Transformer-basierte Modelle schon.

Im Februar 2026 erweiterte Meituan den Ansatz mit MTFM, einem Foundation-Modell, das einen gemeinsamen Transformer-Backbone über mehrere Empfehlungsszenarien hinweg nutzt – darunter Restaurant-Listings auf der Startseite, Essensempfehlungen und Gutscheinpakete. MTFM überführt domänenübergreifende Daten in drei Token-Typen für historisches Verhalten, Echtzeitinteraktionen und Kandidatenprodukte, die gemeinsam trainiert werden, ohne vorab ausgerichtete Eingaben zu benötigen. Online-A/B-Tests zeigten einen Anstieg der Bestellungen um 2,98 % bei Gutscheinpaketen und 1,45 % bei Essensempfehlungen, bei gleichzeitig 5–6 Millisekunden niedrigerer Inferenzlatenz pro Anfrage.

Das Gegenargument lautet, dass generative Empfehlungssysteme bei Meituan nur deshalb funktionieren, weil Meituan über die nötige Verhaltensdatendichte verfügt, damit Skalierungsgesetze greifen. Die Plattform bearbeitet täglich Hunderte Millionen Empfehlungsanfragen und greift dabei auf Nutzersignale aus Essenslieferung, Lebensmitteln und lokalen Dienstleistungen zurück. Das ist plausibel – aber nur, wenn die Gewinne von der Datenmenge abhängen und nicht vom strukturellen Vorteil tokenisierter Feature-Sequenzen. Metas eigene Ergebnisse zeigten Potenzgesetz-Qualitätsskalierung über drei Größenordnungen an Trainingscompute, und NVIDIA hat eine Open-Source-HSTU-Implementierung für Teams veröffentlicht, die nicht über Metas Infrastruktur verfügen. Der Engpass für mittelgroße Händler dürfte eher die Engineering-Kapazität sein als die Datenlage.

Modehändler, deren Produktentdeckung über diese Plattformen läuft, sollten zur Kenntnis nehmen, was sich unter der Oberfläche verändert hat. Als Meituans Empfehlungsmaschine noch ein traditionelles Deep-Learning-Modell war, verbesserte mehr Rechenleistung die Qualität nicht. Mit dem Transformer-Backbone skaliert die Qualität mit dem Rechenaufwand – das heißt, das Verständnis der Plattform für die Passung zwischen Produkt und Nutzer wächst, solange Investitionen fließen. Meituan verarbeitet bereits täglich Hunderte Millionen Empfehlungsanfragen; die neue Architektur macht jede Anfrage mit jedem Modell-Update präziser. Wenn Meituan, Kuaishou und Xiaohongshu auf der Skalierungskurve bleiben, werden die Plattformen, über die Produktentdeckung stattfindet, Kataloge mit einer Tiefe lesen, die keine eigene Empfehlungsschicht einer Marke erreicht. Der Katalog ist das Vokabular; das Modell entscheidet, was er bedeutet.