Retail-Empfehlungssysteme haben ihre Datengrenze schon vor Jahren erreicht

Forschung zu Skalierungsgesetzen von Empfehlungsmodellen zeigt, dass die Datenansammlung weit früher an Grenzen der Diminishing Returns stößt, als Händler annehmen – und verschiebt damit den Wettbewerbsvorteil vom Datenvolumen zur Modellarchitektur.

Retail-Empfehlungssysteme stoßen weit früher an ihre Datengrenze, als Betreiber üblicherweise annehmen. Metas Analyse von DLRM-artigen Click-Through-Rate-Modellen ergab, dass die Qualität nach einem „Potenzgesetz plus Konstante” mit Datenmenge, Parameteranzahl und Rechenaufwand skaliert. Die Mathematik ist unerbittlich: Jede Verzehnfachung der Trainingsdaten bringt einen kleineren Genauigkeitsgewinn als die vorherige, und die Konstante stellt eine Fehlergrenze dar, die durch kein Datenvolumen zu unterschreiten ist. Das Parameterskalieren stieß zuerst an seine Grenzen: Für die untersuchte Architektur kamen die Forscher zu dem Schluss, sie sei „am Ende ihrer Möglichkeiten”. Fashion-Händler, die täglich Millionen von Browse-Klick-Kauf-Ereignissen generieren, befinden sich bereits auf dem flachen Teil dieser Kurve – ob sie es gemessen haben oder nicht.

Wenn die Decke architektonischer Natur ist, liegt die Lösung ebenfalls in der Architektur. Meta demonstrierte dies direkt mit HSTU, einem sequenziellen Transducer, der Benutzeraktionen als Token in einem generativen Framework behandelt. Das Modell durchbrach das Parameterplateau, an dem DLRM gescheitert war. Mit 1,5 Billionen Parametern erzielte HSTU in Online-A/B-Tests eine Verbesserung von 12,4 %. Auf öffentlichen Benchmarks erreichte die NDCG-Verbesserung 65,8 %. Kein noch so großer Anstieg des Trainingsdatenvolumens hätte unter der alten Architektur vergleichbare Gewinne ermöglicht.

Mode-Empfehlungen verschärfen das Problem, weil die Signale schneller verfallen als in Kategorien mit stabilen Kaufzyklen. Ein Kunde, der vor sechs Monaten Laufschuhe gekauft hat, wird wahrscheinlich wieder Laufschuhe benötigen; eine Kundin, die ein geblümtes Midi-Kleid gekauft hat, will vielleicht nie wieder eines. Saisonale Rotation, Trendgeschwindigkeit und visuelle Neuheit verkürzen allesamt die Halbwertszeit von Interaktionsdaten im Modebereich. Climber, im Musik-Streaming eingesetzt, wo Konsumptionssignale ähnlich schnell verfallen, adressiert dies direkt: Seine Multi-Skalen-Sequenzextraktion verarbeitet verschiedene Zeithorizonte in unterschiedlicher Auflösung. Der dabei erzielte Produktions-Lift von 12,19 % ist das erste dokumentierte Beispiel für kontrolliertes Modellskalieren, das auf seiner Deploymentplattform kontinuierliches Wachstum bei Online-Metriken antreibt. Wenn Daten so schnell verfallen, kann das Ansammeln größerer Mengen davon keine Architektur ersetzen, die sich an diesen Verfall anpasst.

Der Händler mit dem tiefsten proprietären Präferenz-Datensatz in der Modebranche hat bereits getestet, was passiert, wenn die Architektur mit den aufgenommenen Daten nicht Schritt hält.

Stitch Fix baute ein gesamtes Unternehmen auf der Prämisse auf, dass proprietäre Stilpräferenzdaten zu wachsenden Erträgen führen. Das Unternehmen sammelte über ein Jahrzehnt lang explizites Feedback an: Passform-Bewertungen, Stilprofile, Ablehnungsgründe, Stylist-Annotationen. Nach jeder Daten-Moat-Theorie hätte dieser Datensatz den Wettbewerbsabstand im Laufe der Zeit vergrößern sollen. Stattdessen meldete das Unternehmen sieben aufeinanderfolgende Quartale mit einem durchschnittlichen Jahresumsatzrückgang von 18 %, wobei die aktiven Kunden im Geschäftsjahr 2024 um 15 % zurückgingen. Mehrere Faktoren trieben diesen Rückgang an, aber eines fiel besonders durch seine Abwesenheit auf: Der Datenvorteil entwickelte keine Eigendynamik.

Das stärkste Gegenargument lautet, dass Modepräferenzen so persönlich sind, dass sie sich architektonischen Abkürzungen widersetzen. Ein Cold-Start-Recommender kann Bestseller vorschlagen; nur ein ausgereifter Datensatz kann vorhersagen, dass eine bestimmte Kundin weite Hosen in Oliv statt in Navy möchte. Das stimmt im engsten Sinne – kollaboratives Filtern übertrifft LLMs nach wie vor in datenreichen Umgebungen. Neuere Arbeiten zum dynamischen Representation Learning zeigen jedoch, dass neue Nutzer und Artikel ohne Fine-Tuning repräsentiert werden können – durch einen einzigen Forward Pass über bestehende Embeddings, der vergleichbare Methoden in Cold-Start-Szenarien um 29,5 bis 47,5 Prozent übertrifft. Wenn sich die Cold-Start-Lücke in Wochen statt in Jahren schließt, ist der Datenvorteil ein Vorsprung, kein Burggraben.

Die Investitionsgrenze für Retail-Empfehlungen hat sich verschoben. Metas Foundation-Expert-Paradigma ersetzt monolithische Empfehlungsmodelle durch leichtgewichtige, oberflächenspezifische Experten, die auf einer gemeinsamen Grundlage aufbauen, und reduziert den Rechenaufwand durch die Zentralisierung allgemeiner Repräsentationen, anstatt für jede Deployment-Oberfläche von Grund auf neu zu trainieren. Eine separate Skalierungsforschung erzielte allein durch architektonisches Redesign mehr als das Fünffache der Trainingseffizienz und das 21-Fache der Inferenzeffizienz – begleitet von Produktionsgewinnen von 4 % bis 8 % bei Konsum- und Engagement-Metriken. Das sind Gewinne, die kein noch so großer Zuwachs bei der Datensammlung erzielen kann. Wenn dieses Muster anhält, werden jene Händler Empfehlungsvorteile behalten, die architektonische Fortschritte am schnellsten übernehmen. Die Board-Präsentation, die mit dem Datenvolumen beginnt, beantwortet eine Frage, an der das Fachgebiet schon vor Jahren vorbeigezogen ist.