Outfit-Modelle haben ihr Trainings-Dataset. Der Katalog sagt 'weich und warm'.

Zwei im Frühjahr veröffentlichte Outfit-Generierungs-Datasets schließen die Modell-Lücke, für die Händler verantwortlich gemacht wurden. Der Engpass verlagert sich sofort zu Katalog-Teams, deren Produktdaten nie für einen Outfit-Generator geschrieben wurden.

Die Outfit-Generierung hatte ihr Trainings-Dataset in acht Wochen. Garments2Look erschien im März auf arXiv und stellte 80.000 Mehr-Kleidungsstück-Outfits vor, verpackt als Triplets aus Referenzbild, Modelbild und strukturiertem Text über übergeordnete und feingranulare Kategorien. FashionStylist folgte im April mit itemseitiger Annotation bis hin zur Layering-Rolle und Outfit-Kompatibilität auf Gesamtebene. Das Teilgebiet, das jahrelang ohne einen gemeinsam akzeptierten Benchmark auskommen musste, hat nun zwei — unterschiedlich in Umfang und Zielsetzung, aber konvergierend auf dieselbe Anforderung, die jeder Händler stellen muss, der die resultierenden Modelle einsetzen will. Die Form dieser Anforderung ist das, was die meisten Produktkataloge nicht enthalten.

Ein Händler, der Garments2Look liest, würde die Synthese-Pipeline vor dem Modell bemerken. Das Dataset konstruiert Outfit-Listen heuristisch, schickt sie durch eine Try-on-Stufe und filtert dann mit Automatisierung und manueller Überprüfung. Was das resultierende System lernt, ist die Verbindung zwischen einer strukturierten Beschreibung und einem fertigen Look: Gewebebezeichnung auf Drapiereigenschaften gemappt, Layering-Reihenfolge auf Funktions-Tag, Saison als Attribut kodiert statt geraten. FashionStylist wählt den langsameren, expertengetriebenen Weg, mit Items, die von Stylistinnen und Stylisten bis zur Layering-Rolle annotiert wurden, die jedes Stück innerhalb eines vollständigen Outfits einnimmt. Beide Papers implizieren, ohne es direkt auszusprechen, dass die Modellqualität nicht mehr die bindende Einschränkung ist. Garments2Look räumt offen ein, dass aktuelle Methoden bei den Aufgaben, die das Dataset definiert, noch Ausrichtungsfehler und Artefakte produzieren — wofür ein Benchmark da ist: Fehler messbar zu machen, statt diskutierbar.

Die bindende Einschränkung ist, wessen Produktdatenbank die Sprache sprechen kann, die das Modell zu hören gelernt hat.

Dies ist das zweite Mal, dass das Feld in zwei Monaten dieselbe Mauer erreicht. Wir schrieben am 12. Mai, dass Tstars-Tryon, das virtuelle Taobao-Anprobier-System, das vor seinem April-Paper im Industriemaßstab eingesetzt wurde, nicht mehr damit kämpft, Seide oder Strick zu rendern; womit es kämpft, ist ein Katalog, dessen Ärmellänge als „regular” angegeben ist. Die Outfit-Generierung erreicht nun dieselbe Mauer von der anderen Seite. Beim Try-on ist das Kleidungsstück die Einheit; bei der Outfit-Generierung ist die Einheit die Beziehung zwischen Kleidungsstücken, die Rolle, die jedes spielt, die Schicht, die es einnimmt, die saisonale Logik, die einen Look zusammenhält. Beide Einheitsdefinitionen sind innerhalb der neuen Datasets beantwortet und innerhalb der typischen Retail-Tabelle unbeantwortet.

Die Asymmetrie der Vorbereitung erklärt, wer exponiert ist. Garments2Look hat im Durchschnitt 4,48 Referenzbilder pro Outfit, wobei jedes Item natürlichsprachliche und kategorienbasierte Annotation trägt, bevor überhaupt ein Conditioning beginnt. Ein Händler, der mit einem typischen Produktinformationssystem arbeitet, hat ein einziges Foto, einen spärlichen Kategoriebaum und einen Absatz Marketingtext, der vor Jahren von jemandem geschrieben wurde, der auf Suchmaschinenoptimierung briefed worden war. Von den Katalog-Teams wurde nie die „Layering-Rolle” verlangt, weil niemand, der ihnen vorgelagert war, ein geschichtetes Outfit modellierte. Die Signalform hat sich schneller verändert als die Datenstruktur, die sie speist.

![A split-frame scene: on the left, a server rack with neatly labelled fabric-attribute tags streaming across screens; on the right, a paper product card with one line of marketing text and a coffee smudge.](generate: A split-frame scene; a clean server rack on the left with neatly labelled fabric attribute tags streaming across screens; on the right a paper product card carrying a single line of marketing text and a faint coffee smudge; warehouse lighting, dispassionate composition.)

Das stärkste Gegenargument lautet, dass die Modelle selbst die Beschriftung übernehmen werden. Ein Vision-Language-Modell kann ein Produktbild lesen und Gewebegewicht, Layering-Rolle, sogar die konditionelle Grammatik ableiten, wann ein Item in ein Winteroutfit gehört — und das ist das Versprechen, das die meisten Katalog-Anreicherungs-Anbieter Händlern im Jahr 2026 machen. Die Bedingung, die erfüllt sein muss, ist, dass abgeleitete Labels über einen Katalog hinweg stabil bleiben, von Saison zu Saison, wobei dasselbe Item jedes Mal gleich beschrieben wird. Diese Stabilität ist keine Funktion der Modellgenauigkeit, sondern der Governance-Disziplin — wie oft ein Händler neu etikettiert und wie rigoros. Ein Katalog, der im Februar eine Anreicherung eingekauft und ohne Governance ausgeliefert hat, wird im Herbst denselben Mantel mit drei verschiedenen Layering-Tags tragen, je nachdem, welcher Wochen-Batch die Inference durchgeführt hat. Das Modell liefert eine richtige Antwort; der Katalog speichert drei davon.

Das Muster, wer exponiert ist, ist nun lesbar. Reine E-Commerce-Anbieter mit Engineering-Teams und einheitlichen Produktgraphen können ihr Katalogschema in einer Saison neu aufbauen, wenn sie es wählen; wir haben früher in dieser Woche festgestellt, dass Zalandos 1,13-Milliarden-Euro-Absorption von ABOUT YOU genau die Engineering-Tiefe kauft, die diese Arbeit voraussetzt. Kaufhäuser und lizenzierte Multi-Brand-Betreiber tragen die schwierigere Form: Tausende von Lieferanten schreiben Freitext-Beschreibungen, kein Vertragsklausel verlangt strukturierte Attribute, kein internes Team, das eine durchsetzen könnte, wenn es sie gäbe. Das Modell, das diese Händler lizenzieren werden, kann einen Mantel in einer Wolle rendern, die unter Studiolicht korrekt drapiert. Es kann keinen Mantel rendern, der als „weich und warm” beschrieben wird, weil in diesen drei Wörtern kein Signal steckt, auf das man zeigen könnte.

Wenn die Outfit-Generierung ihre aktuelle Kurve fortsetzt, wird die verbrauchergerichtete Weggabelung schneller eintreten, als die Modell-Papers antizipieren. Kataloge mit strukturierten Feldern werden Outfit-Vervollständigungs-Vorschläge veröffentlichen, die sich lesen wie eine Stylistennotiz: aufeinander abgestimmte Gewebegewichte, kalibriertes Layering, saisongerechtes Zubehör. Kataloge ohne werden vier Bilder auf grauem Hintergrund veröffentlichen und einen Button mit der Aufschrift „Complete the Look”, den das Backend nicht vervollständigen kann, weil nichts in der Datenbank ihm sagt wie. Der Preis der nächsten zwölf Monate wird nicht in Rechenleistung oder Lizenzgebühren bezahlt. Er wird darin bezahlt, ob die Menschen, die 2022 Produkttexte schrieben, sie für eine Suchmaschine schrieben — oder für ein Modell, das noch nicht existierte.