L'essayage virtuel a maîtrisé la photo fixe. Maintenant, le vêtement doit bouger.

Toutes les avancées de l'essayage virtuel ont jusqu'ici résolu une seule image figée. HyperBones, un article arXiv récent dépassant les 300 images par seconde, s'attaque à la couche que le secteur a ignorée : le mouvement du tissu piloté par squelette en temps réel — l'écart entre une photo produit et le miroir d'une cabine d'essayage.

La robe nuisette en soie rendue est convaincante — jusqu’au moment où l’on demande au modèle de marcher. Immobile, elle se tient bien : la lumière glisse le long du biais, l’ourlet s’accumule là où il devrait s’accumuler, et un pouce qui fait défiler l’écran croit sentir le poids du tissu. Demandez-lui de bouger, et l’illusion s’effondre, parce que le système n’a jamais résolu qu’une seule image. Plus tôt ce mois-ci, nous déclarions l’image fixe aboutie ; la couche que personne n’avait encore revendiquée, c’est le mouvement — et pour tout ce qui tombe, flotte ou se balance, le mouvement, c’est le produit lui-même.

La coupe en biais en est la plus ancienne démonstration. Lorsque Madeleine Vionnet a coupé le tissu dans le vrai biais dans les années 1920, elle créait des robes qui restent inertes sur la table de coupe et ne prennent vie que sur un corps en mouvement, épousant les courbes et s’en dégageant au rythme des gestes. À plat, une telle robe n’est qu’un pan de tissu en diagonale ; toute sa promesse tient à la demi-seconde où l’ourlet s’envole avant de retomber. Chaque triomphe de l’essayage virtuel a jusqu’ici photographié la table.

Il existe deux façons de faire bouger un vêtement : le peindre image par image, ou le simuler. L’approche par diffusion — la lignée de MagicTryOn et ses semblables — peint chaque image en espérant que la suivante s’accorde avec elle. Des articles comme MagicTryOn décrivent ce que les méthodes vidéo d’essayage existantes n’ont toujours pas résolu : « une fidélité insuffisante du vêtement et une cohérence spatiotemporelle limitée », citant les tremblements temporels et la dérive visuelle comme symptômes. Le vêtement vacille parce que le modèle le redessine à chaque image sans aucune mémoire de l’endroit où se trouvait le tissu un instant auparavant.

HyperBones, publié sur arXiv le 19 mai par une équipe de douze auteurs, emprunte l’autre chemin et ne dessine pas le vêtement. Il le simule. Un ensemble d’os virtuels pilote le mouvement général du tissu via un réseau de neurones léger, une carte convolutive entraînée y superpose les plis, et la physique supervise le résultat sans faire appel à un simulateur plus lent. Le tout tourne à plus de 300 images par seconde sur un GPU grand public — c’est le chiffre qui compte, car un miroir de cabine d’essayage doit suivre le corps qui se trouve devant lui.

Les os virtuels appliqués aux vêtements ne sont pas une nouveauté. Un article SIGGRAPH de 2022 animait déjà des vêtements amples en transférant le mouvement du corps sur des os extraits, séparant le balancement lent des plis rapides. La nouveauté ici, c’est la vitesse, et la capacité à traiter des corps que le modèle n’a jamais vus : le conditionnement par hypernetwork sort du temps réel le calcul propre à chaque identité, ce qui permet à un même vêtement de se comporter correctement sur des morphologies et des mouvements différents. Aller assez vite pour répondre à un corps qui pivote en temps réel, c’est ce qui sépare la démo de recherche du miroir fonctionnel.

Le bémol tient à une phrase de l’abstract : un ensemble de vêtements fixe. HyperBones ne peut pas ingérer un catalogue entier et l’animer ; il faut construire les os pour chaque pièce spécifique en amont. C’est donc d’abord un outil pour les pièces phares bien avant d’être un outil de vitrine — le miroir animé arrivera comme arrive la plupart des nouvelles technologies dans la mode : sur le manteau vedette en premier, et sur les basiques bien plus tard.

Une photo produit demande au client d’imaginer comment le vêtement bouge ; un miroir de cabine d’essayage lui interdit de deviner.