AI & Retail Technology

Eine Punktwolke kann einen bekleideten Körper erfassen. Fast kein Retailer hat eine.

ETCH, ein Highlight der ICCV 2025, passt parametrische Körpermodelle mit bis zu 69,5 Prozent weniger Fehler als bisherige Methoden an Punktwolken bekleideter Menschen an. Der Trainingsdatensatz stützt sich auf 47 reale Probanden, die in Forschungslabors erfasst wurden – und legt damit die Infrastrukturlücke offen, die den Algorithmus von jeder kommerziellen Virtual-Try-on-Anwendung trennt.

A nautilus shell beside a dissolving 3D point cloud of a clothed human figure with wireframe anatomy visible underneath

Neritus Vale

ETCH, ein Highlight der ICCV 2025 von Forschenden um Michael J. Black am Max-Planck-Institut, löst das algorithmisch schwierigste Problem im 3D-Virtual-Try-on: die Anpassung eines parametrischen Körpermodells an eine Punktwolke eines bekleideten Menschen. Die modulare Trainingspipeline verknüpft zwei reale Scan-Korpora und einen synthetischen Datensatz zu insgesamt 94.501 Samples. Auf dem führenden Benchmark reduziert ETCH den Körperanpassungsfehler gegenüber bisherigen Methoden um bis zu 69,5 Prozent und verbessert die Formgenauigkeit im Durchschnitt um 49,9 Prozent. Der Algorithmus ist gelöst. Die dafür benötigte Scan-Infrastruktur existiert außerhalb der Forschungslabors, die sie hervorgebracht haben, kaum.

Die eigentliche Herausforderung beim Virtual Try-on war nie das Drapieren eines digitalen Kleidungsstücks auf einem bekannten Körper. Sie bestand darin, den Körper unter der Kleidung zu rekonstruieren, wenn man nur einen 3D-Scan einer bekleideten Person hat. Frühere optimierungsbasierte Ansätze setzten auf mehrstufige Pipelines, die versagten, sobald die anfängliche Posenschätzung fehlerhaft war; lernbasierte Methoden verallgemeinerten schlecht – von enger Sportbekleidung bis zum weiten Mantel. ETCH führt eine neue Darstellung ein, sogenannte Tightness-Vektoren: Verschiebungsfelder von jedem Punkt auf der Kleidungsoberfläche nach innen zum entsprechenden Punkt auf dem darunter liegenden Körper. Da diese Vektoren lokal SE(3)-äquivariant sind, bleiben sie über verschiedene Posen hinweg stabil – ein weiter Mantel beim Ausfallschritt und ein eng anliegendes Hemd im Stand werden geometrisch gleich behandelt.

Die Stärke des Verfahrens liegt in seinem modularen Trainingsdatensatz. CAPE vom Max-Planck-Institut liefert 15 Probanden in eng anliegender Kleidung über 140.000+ Frames, aufgenommen mit 60 fps. 4D-Dress von der ETH Zürich ergänzt 32 Probanden in locker sitzender und geschichteter Kleidung mit 78.000 texturierten Scans, wobei jeder Frame eine halbautomatische Segmentierung von Kleidung und Körper erfordert. Ein synthetischer Anteil generierter Menschen schließt Lücken bei Körpertypen und Posen. Jeder reale Scan enthält, was kein kommerzieller Scanner liefert: eine registrierte Körperform unter der Kleidung, die frame-genau mit der äußeren Oberfläche ausgerichtet ist. Der gesamte reale Datensatz umfasst 47 Probanden – alle erfasst in akademischen Spezialeinrichtungen.

Siebenundvierzig Probanden sind ein Forschungsdurchbruch und ein Produktionshindernis.

Die Daten, die ETCH verarbeitet, ähneln nicht dem, was Retailer üblicherweise erfassen. TC2, der größte Hersteller von Körperscannern, hat weltweit über 1.000 Geräte im Einsatz – doch diese erfassen eine bekleidete Oberfläche zur Maßentnahme, nicht die volumetrische Geometrie, die für die Rekonstruktion des darunter liegenden Körpers notwendig wäre. Die Geräte, mit denen CAPE und 4D-Dress entstanden sind, befinden sich in Forschungseinrichtungen hinter akademischen Zugangsbeschränkungen – nicht im stationären Handel. Bloomingdale’s testete In-Store-Körperscanner und zog die Hardware wieder ab, nachdem die Kosten eine breite Anwendung unpraktikabel machten. Meshcapade – dessen Mitgründer Michael J. Black auch Co-Autor von ETCH ist – bietet eine Produktionspipeline an, die mit einem einzigen Foto auskommt und den aufwändigen Scan damit vollständig umgeht.

Synthetische Daten sind die naheliegende Brücke. Damit diese These scheitert, müsste die synthetische Generierung die Domain-Lücke zu realen Scan-Daten vollständig schließen – diese Lücke besteht weiterhin. Handelsübliche Tiefensensoren sind kein Ersatz: Sie erfassen die Kleidungsoberfläche, nicht die darunter liegende registrierte Körperform. Die Anpassung von SMPL-X, dem Ganzkörpermodell mit artikulierten Händen und Gesicht, würde eine Scan-Abdeckung voraussetzen, die kein bestehender Korpus in kommerziellem Maßstab bietet. Das eigentliche Nadelöhr ist die Scan-Infrastruktur – nicht die neuronale Architektur.

Der Virtual-Try-on-Markt wird 2025 auf 15,18 Milliarden US-Dollar geschätzt, mit Projektionen von bis zu 48 Milliarden Dollar bis 2030. Smart-Mirror- und Kiosk-Systeme machten 43,86 Prozent des Umsatzes im Jahr 2024 aus. Diese Lösungen steigern Konversionsraten um bis zu 40 Prozent gegenüber mobilem AR – können jedoch nicht modellieren, wie Kleidung sitzt, fällt oder wie Körper und Kleidungsstück dreidimensional zusammenwirken. Wer Virtual Try-on anbieten möchte, das versteht, wie ein Körper unter einem Kleid aussieht, muss die Scan-Infrastruktur finanzieren, die diese 47 Trainingsprobanden hervorgebracht hat. Das Nadelöhr hat sich verschoben – vom Algorithmus zur Erfassung.