Le Flat Sketch est le Dessin que l'IA Générative Ne Sait Pas Lire

Des éditeurs proposent désormais des logiciels capables de transformer le croquis technique d'un styliste en vêtement 3D en quelques minutes, présentés comme la preuve que l'IA sait interpréter l'intention de conception. Les nouveaux benchmarks des modèles de vision-langage sous-jacents montrent pourtant qu'ils sont encore incapables d'établir une correspondance entre un diagramme 2D abstrait et l'objet physique qu'il spécifie — c'est pourquoi l'écart se révèle dans la salle d'échantillons, et non dans le rendu.

Le logiciel qui transforme le croquis technique d’un styliste en robe 3D a appris à restituer le vêtement, pas à lire le dessin. Des outils comme Style3D génèrent un vêtement en volume à partir d’un flat en quelques minutes, présentés comme la preuve que l’IA est capable d’interpréter l’intention de conception. Les nouveaux benchmarks des modèles de vision-langage sous-jacents racontent une autre histoire : ils ne savent toujours pas établir une correspondance entre un diagramme 2D abstrait et l’objet physique qu’il spécifie — or un flat sketch est précisément ce type de diagramme. La génération a devancé la compréhension, et c’est dans la salle d’échantillons que la facture arrive.

Un flat sketch n’est pas une image de robe, c’est un ensemble d’instructions pour en construire une. Il s’inscrit dans le tech pack, le document qu’une marque transmet à une usine : des vues en ligne noir et blanc de l’avant, de l’arrière et de l’intérieur, une nomenclature de matières, des points de mesure avec tolérances, ainsi que le détail des coutures et des points. Un maquettiste transforme ces flats en premier vêtement physique — l’acte dont dépend l’intégralité de l’ordre de production. Pour cela, il projette chaque flat dans une forme physique : il anticipe le tombé du tissu sur un corps, l’endroit où la pince va creuser, la tenue de la couture. C’est précisément cette projection que les nouveaux benchmarks isolent, et que les modèles ratent.

Le test le plus rigoureux de cet échec ne portait pas sur des vêtements mais sur IKEA. IKEA-Bench, soumis par Zhuchenyang Liu et ses collègues, a évalué un panel de modèles de vision-langage sur 1 623 questions réparties en six types de tâches, dont l’une consistait à mettre en correspondance un diagramme de montage 2D avec une vidéo de l’assemblage du meuble. Les modèles parvenaient à retrouver des instructions écrites à partir du texte, mais ce même texte dégradait simultanément l’alignement entre diagramme et vidéo. Le constat mécanique de l’article : diagrammes et vidéos occupent des sous-espaces disjoints, et la présence de texte attire le système vers les mots en l’éloignant de l’image.

Le dessin et la chose qu’il représente ne se rencontrent jamais à l’intérieur du modèle.

Le même déficit de lecture des diagrammes se creuse davantage lorsqu’un benchmark supprime les raccourcis 2D sur lesquels s’appuient habituellement les modèles de vision-langage. SSI-Bench, publié en février 2026, pose des centaines de questions de classement construites à partir de structures 3D réelles, exigeant rotation mentale, inférence de coupe transversale et raisonnement sur les occlusions, plutôt que de la simple reconnaissance de motifs plats. Le modèle propriétaire le plus performant testé a obtenu un score de 33,6 %, ce qui pourrait sembler n’indiquer qu’une difficulté ordinaire — jusqu’à ce qu’on observe le groupe de contrôle : les humains sur les mêmes questions ont atteint 91,6 %, confirmant que la tâche est équitable et que l’échec appartient au modèle. Lire un flat sketch requiert les mêmes opérations : pivoter la vue de face pour obtenir la vue de dos, inférer la pince invisible, prédire où le tissu va plier. Un modèle qui performe à ce niveau en raisonnement spatial ne lit pas un tech pack ; il en produit une approximation, avec aplomb.

La documentation technique est le domaine dont les documents ressemblent le plus aux tech packs, et cette communauté a nommé cet échec il y a deux ans. DesignQA (avril 2024) utilise les règles de compétition Formula SAE et des dessins CAO pour tester si un modèle est capable de vérifier qu’une conception respecte une exigence écrite. Les voitures ne sont pas des robes, mais le document appartient à la même famille — un dessin technique associé à une spécification qui n’a de sens que lus ensemble. Les modèles testés, dont GPT-4o et Claude-Opus, ont eu du mal à la fois à retrouver la règle pertinente dans la spécification écrite et à l’appliquer au dessin qu’elle régissait. Un tech pack impose cette même exigence chaque fois qu’une usine confronte un flat à un tableau de mesures. Ce qui échoue sur un dessin de voiture de course échoue sur une fiche de gradation, car la tâche cognitive est identique qu’il s’agisse d’une manche ou d’un châssis.

A sample maker in a sample room compares a flat tech-pack sketch and a glowing photoreal render against a half-finished garment on a dress form that matches neither at the collar.

L’objection la plus solide est que tout cela n’aura peut-être plus d’importance, car le tech pack est en train de se digitaliser. Si les marques remplacent les flats par des fichiers 3D structurés, un patron paramétrique dans CLO ou Style3D transforme chaque mesure en un champ que le modèle peut interroger plutôt que lire. Sur cette trajectoire, le déficit de compréhension n’est pas comblé ; il est contourné, et l’objection est réelle partout où le vêtement existe déjà sous forme de données structurées. Ce n’est pas le cas de la majorité des articles de prêt-à-porter — ils portent le même déficit de métadonnées non structurées qui détermine déjà quels catalogues peuvent prendre en charge l’essayage virtuel. Les éléments les plus difficiles à numériser sont précisément ceux qui portent l’intention : un fichier 3D contient les coordonnées d’une couture, mais peine à contenir la note indiquant que cette couture doit rouler vers le dos et disparaître. Tant que ce jugement reste dessiné plutôt que structuré, un modèle incapable de lire un dessin est incapable de lire le cahier des charges.

Le coût de la confusion entre un rendu et une lecture atterrit dans une seule pièce : les retouches. Un acheteur valide un échantillon photoréaliste à l’écran, l’usine travaille à partir d’un flat que le modèle a « interprété », et le premier échantillon physique revient avec la bonne silhouette mais sans la bonne intention : col raté, une patte de boutonnage qui paraît nette en pixels mais baille sur le corps. Chaque correction est un échantillon coupé, expédié, inspecté et refait — le coût même que l’outil de rendu était censé éliminer. C’est le même schéma que nous avons tracé ce matin en analytique : un modèle analytique dépourvu d’accès aux causes produit quand même une explication confiante ; l’outil de rendu, dépourvu d’accès à la forme physique, produit quand même une image confiante. Aucun prompt ne corrige cela ; la réparation est un choix sur la façon d’employer l’économie réalisée — soit en structurant les spécifications en paramètres qu’un modèle peut lire sans voir, soit en maintenant dans la salle d’échantillons un humain capable de les lire. Les marques qui ne font ni l’un ni l’autre et font confiance au rendu paient la différence un échantillon corrigé à la fois.