Der Flat Sketch ist die Zeichnung, die generative KI nicht lesen kann

Anbieter verkaufen heute Software, die den Flat Sketch eines Designers in wenigen Minuten in ein 3D-Kleidungsstück verwandelt – vermarktet als Beweis, dass KI Designabsichten lesen kann. Neue Benchmarks der zugrunde liegenden Vision-Language-Modelle zeigen jedoch, dass diese nach wie vor nicht in der Lage sind, ein abstraktes 2D-Diagramm auf das physische Objekt abzubilden, das es beschreibt. Deshalb liegt die Lücke nicht im Render, sondern im Musterraum.

Die Software, die den Flat Sketch eines Designers in ein 3D-Kleid verwandelt, hat gelernt, das Kleidungsstück zu rendern – nicht die Zeichnung zu lesen. Tools wie Style3D liefern aus einem Flat in wenigen Minuten ein 3D-Kleidungsstück und werden als Beweis vermarktet, dass KI Designabsichten versteht. Neue Benchmarks der zugrunde liegenden Vision-Language-Modelle widersprechen dem: Diese sind nach wie vor nicht in der Lage, ein abstraktes 2D-Diagramm auf das physische Objekt abzubilden, das es beschreibt – und genau das ist ein Flat Sketch. Die Generierung hat das Verstehen überholt, und der Musterraum ist der Ort, an dem der Preis dafür bezahlt wird.

Ein Flat Sketch ist kein Bild eines Kleides, sondern eine Anleitung zu dessen Konstruktion. Er ist Bestandteil des Tech Packs, des Dokuments, das eine Marke an eine Fabrik schickt: Schwarz-Weiß-Linienzeichnungen von Vorder-, Rück- und Innenansicht, eine Materialliste, Maßpunkte mit Toleranzen sowie Details zu Nähten und Stichen. Ein Mustermacher überführt diese Flats in das erste physische Kleidungsstück – der Schritt, von dem die gesamte Produktionsorder abhängt. Der Mustermacher projiziert jeden Flat in eine physische Form: Er schätzt, wie der Stoff am Körper fallen wird, wo die Abnäher ihren Zug entfalten und wie die Naht hält. Genau diese Projektion isolieren die neuen Benchmarks – und genau dort versagen die Modelle.

Der klarste Test dieses Versagens hatte nichts mit Kleidung zu tun; er verwendete IKEA. IKEA-Bench, eingereicht von Zhuchenyang Liu und Kollegen, testete eine Reihe von Vision-Language-Modellen anhand von 1.623 Fragen. Die Fragen umfassten sechs Aufgabentypen; eine davon verlangte, ein flaches Montagediagramm einem Video der Möbelkonstruktion zuzuordnen. Die Modelle konnten geschriebene Anleitungen aus Text wiedergeben – doch derselbe Text verschlechterte gleichzeitig die Diagramm-zu-Video-Ausrichtung. Der mechanistische Befund des Papers: Diagramme und Videos belegen disjunkte Teilräume, und hinzugefügter Text zieht das System in Richtung Wörter und weg vom Bild.

Die Zeichnung und das Objekt, das sie darstellt, begegnen sich im Modell nie.

Diese Lücke im Diagrammlesen wird noch größer, wenn ein Benchmark die 2D-Abkürzungen entfernt, auf die Vision-Language-Modelle sich verlassen. SSI-Bench, im Februar 2026 veröffentlicht, stellt Hunderte von Ranking-Fragen, die auf realen 3D-Strukturen basieren und mentale Rotation, Querschnittsschlussfolgerungen sowie Okklusionslogik erfordern – statt flachem Mustererkennen. Das stärkste getestete Closed-Source-Modell erzielte 33,6 Prozent. Das klingt nach gewöhnlicher Schwierigkeit, bis man die Kontrollgruppe sieht: Menschen erreichten bei denselben Fragen 91,6 Prozent, was bestätigt, dass die Aufgabe fair ist und das Versagen beim Modell liegt. Das Lesen eines Flat Sketches erfordert dieselben Fähigkeiten: die Vorderseite in eine Rückseite drehen, den unsichtbaren Abnäher ableiten, vorhersagen, wo der Stoff fallen wird. Ein Modell, das auf diesem Niveau in räumlichem Denken arbeitet, liest kein Tech Pack – es rät eines zusammen, und zwar fließend.

Technische Dokumentation ist das Feld mit den Tech Packs ähnlichsten Dokumenten, und diese Community hat dieses Versagen bereits vor zwei Jahren benannt. DesignQA (April 2024) verwendet Formula-SAE-Rennregeln und CAD-Zeichnungen, um zu prüfen, ob ein Modell ein Design anhand einer schriftlichen Anforderung überprüfen kann. Die Autos sind keine Kleider, aber das Dokument ist dasselbe Tier – eine technische Zeichnung plus eine Spezifikation, die nur im Zusammenspiel eine Bedeutung ergeben. Die getesteten Modelle, darunter GPT-4o und Claude-Opus, hatten Schwierigkeiten sowohl damit, die relevante Regel aus der schriftlichen Spezifikation abzurufen, als auch damit, sie auf die betreffende Zeichnung anzuwenden. Ein Tech Pack stellt dieselbe Anforderung jedes Mal, wenn eine Fabrik einen Flat gegen eine Maßtabelle prüft. Was bei einer Rennwagenzeichnung scheitert, scheitert auch bei einer Gradierungsspezifikation – denn die kognitive Aufgabe ist dieselbe, egal ob das Objekt ein Ärmel oder ein Chassis ist.

A sample maker in a sample room compares a flat tech-pack sketch and a glowing photoreal render against a half-finished garment on a dress form that matches neither at the collar.

Der stärkste Einwand lautet, dass all das keine Rolle spielen wird, weil das Tech Pack digital wird. Wenn Marken Flat Sketches durch strukturierte 3D-Dateien ersetzen, verwandelt ein parametrisches Schnittmuster in CLO oder Style3D jedes Maß in ein Feld, das das Modell abfragen statt lesen kann. Auf diesem Weg wird die Verständnislücke nicht geschlossen, sondern umgangen – und der Einwand ist überall dort berechtigt, wo ein Kleidungsstück bereits als strukturierte Daten vorliegt. Das trifft auf den Großteil der Bekleidung nicht zu – sie trägt dieselbe unstrukturierte Metadatenlücke, die bereits entscheidet, welche Kataloge virtuelles Anprobieren unterstützen können. Die Teile, die am schwersten zu digitalisieren sind, sind jene, die die Absicht tragen: Eine 3D-Datei hält die Koordinaten einer Naht fest, kann aber kaum den Hinweis abbilden, dass die Naht nach hinten rollen und verschwinden soll. Solange dieses Urteil strukturiert und nicht gezeichnet ist, kann ein Modell, das eine Zeichnung nicht lesen kann, auch die Spezifikation nicht lesen.

Der Preis, einen Render mit einer Lesart zu verwechseln, wird in einem einzigen Raum bezahlt: im Nacharbeitsraum. Ein Einkäufer gibt auf dem Bildschirm ein fotorealistisches Muster frei, die Fabrik arbeitet nach einem Flat, den das Modell „interpretiert” hat, und das erste physische Muster kommt zurück: Es entspricht dem Bild und verfehlt die Spezifikation – die richtige Silhouette, falscher Kragenfall, eine Leiste, die in Pixeln sauber wirkt und am Körper klafft. Jede Korrektur ist ein Muster, das zugeschnitten, verschickt, geprüft und neu angefertigt wird – genau die Kosten, die der Render beseitigen sollte. Es ist dieselbe Struktur, die wir heute Morgen bei der Analyse verfolgt haben: Ein Analysemodell, dem der Zugang zur Ursache fehlt, liefert dennoch eine selbstsichere Erklärung; das Render-Tool, ohne Zugang zur physischen Form, produziert dennoch ein selbstsicheres Bild. Kein Prompt behebt das; die Lösung ist eine Entscheidung darüber, wo die Einsparung investiert wird – entweder in die Digitalisierung der Spezifikation zu Parametern, die ein Modell lesen kann ohne zu sehen, oder darin, einen Menschen im Musterraum zu behalten, der sie lesen kann. Wer beides unterlässt und dem Render vertraut, zahlt den Unterschied – ein korrigiertes Muster nach dem anderen.