KI kann Händlern sagen, was verkauft wurde. Warum, kann sie nicht erklären.

Die 'proaktiven Analyse'-Dashboards, die heute an Modeeinkäufer verkauft werden, versprechen zu erklären, warum ein Modell sich verkauft hat. Die Kausalitätsforschung sagt: Erklärung ist genau das, was große Sprachmodelle aus Verkaufsdaten nicht ableiten können – und das macht ihre Abschreibungs- und Nachbestellempfehlungen zu Korrelation im Gewand von Ursache.

Die neuesten Analysetools, die an Modeeinkäufer verkauft werden, beantworten die Frage, die Einkäufer am dringlichsten stellen möchten – und beantworten sie falsch. Fragt man eines, warum ein Kleid sich verkauft hat, liefert es einen flüssigen, konkreten Satz über Ursache und Wirkung. Diese Copiloten werden als proaktive Einsicht vermarktet, die erklärt, was einen Verkauf angetrieben oder gebremst hat; die Forschung darüber, wie große Sprachmodelle mit Kausalität umgehen, sagt: Ursache ist genau das, was sie aus den Verkaufsdaten, die sie lesen, nicht ableiten können.

Der klarste Test dieser Lücke bat Modelle, nichts weiter zu tun, als Korrelation von Ursache zu unterscheiden. Ein Forscherteam um Zhijing Jin entwickelte Corr2Cause, einen Benchmark aus Hunderttausenden von Aufgaben, bei denen ein Modell eine Reihe von Korrelationen erhält und angeben soll, welche Variable welche verursacht. Das beste getestete System, GPT-4, schnitt nahe dem Zufallsniveau ab. Jedes getestete Modell blieb in der Nähe des Zufalls. Der Benchmark schließt auswendig gelernte Fakten aus und lässt nur die Schlussfolgerung übrig – und genau dort versagten sie.

Das Versagen ist struktureller Natur, keine Frage von Modellgröße oder Trainingsbudget. Judea Pearls Hierarchie der Kausalität ordnet jede Kausalfrage einer von drei Stufen zu: Sehen, Handeln und Vorstellen. Ein Dashboard liest, was geschehen ist – das ist Stufe eins, Assoziation. Eine Einkäuferin, die fragt, was sie nachbestellen oder abschreiben soll, fragt, was passieren wird, wenn sie handelt – das ist Stufe zwei, Intervention. Das grundlegende Ergebnis des Fachgebiets lautet: Keine Menge an Daten der ersten Stufe beantwortet eine Frage der zweiten Stufe, ohne eine kausale Annahme, die die Daten selbst niemals liefern können. Ein Modell, das darauf trainiert wurde, das nächste Wort in Beobachtungstexten vorherzusagen, lebt auf der ersten Stufe und kann durch mehr Lesen nicht aufsteigen.

A three-rung causal ladder labeled seeing, doing, imagining, with a small figure able to reach only the bottom rung

Im Einkaufsbüro nimmt der Fehler eine vertraute Form an. Ein navy Midi-Rock klettert in der Woche, in der er reduziert wird, und der Copilot nennt den Preisnachlass als Grund für die verkauften Einheiten. Er hat nicht gesehen, dass die Reduzierung auf das erste warme Wochenende der Saison fiel – oder dass ein Wettbewerber zwei Türen weiter sein nächstähnliches Modell ausverkauft hatte. Preis fiel und Einheiten stiegen gemeinsam, also nannte die Maschine den Preis, weil gemeinsame Bewegung alles ist, was sie hat. Die Einkäuferin reduziert daraufhin das nächste Modell nach derselben Logik oder bestellt das rabattierte Sortiment nach – und jagt einem Anstieg nach, den das Wetter und das leere Regal eines Konkurrenten erzeugt haben.

Was Händler kaufen, ist also keine Einsicht, sondern die Grammatik der Einsicht: eine Antwort, die wie eine Begründung klingt, erzeugt von einem System, das keinen Zugang zu Begründungen hat.

Die Anbieter haben den Punkt bereits eingeräumt – in Dokumentationen, die kein Einkäufer öffnet. Tableaus Explain Data bietet mit einem Klick eine Erklärung dafür, warum eine beliebige Zahl in einem Diagramm so aussieht, wie sie aussieht, und ist als Standardfunktion der Plattform enthalten. Die eigenen Hilfeseiten stellen klar, dass die Erklärungen „keine kausalen Erklärungen sind”, und warnen davor, Kausalität anzunehmen, da Korrelation nicht Ursache sei. Der Hinweis steht im Handbuch; die Funktion steht im Meeting. Der Abstand zwischen diesen beiden Orten ist genau dort, wo die falsche Nachbestellung entschieden wird.

Der stärkste Einwand lautet, dass die Modelle die kausale Prüfung bereits bestanden haben. In einer viel zitierten Studie aus 2023 stellten Amit Sharma und Kollegen fest, dass GPT-4 und GPT-3.5 paarweise Ursache-Wirkungs-Fragen mit rund 97 Prozent Genauigkeit beantworteten – ein Ergebnis, das auch bei Datensätzen nach dem Trainingsschnitt standhielt und daher nicht als bloßes Auswendiglernen abgetan werden kann. Wäre die Frage einer Einkäuferin eine, deren Antwort irgendwo in den Texten der Welt aufgeschrieben ist, würde das Modell sie wahrscheinlich finden. Die Frage einer Einkäuferin ist es nie. „Würde eine Reduzierung des navy Midi-Rocks nächste Woche die Einheiten steigern, oder würde das warme Wochenende es ohnehin tun?” ist eine Tatsache über den kommenden Dienstag in einem bestimmten Geschäft, in keinem Korpus verzeichnet. Die 97 Prozent messen den Abruf kausalen Wissens, das bereits existiert; Corr2Causes Zufallsniveau misst die Entdeckung von Strukturen, die es nicht tun – und Einkäufer leben in der zweiten Zahl.

Eine Studie aus 2025 tat das Ehrliche und fütterte die Modelle mit den tatsächlichen Zahlen hinter den Labels. Forscher, die datengesteuerte Kausalentdeckung testeten, stellten fest, dass die Variablennamen allein einem Modell erlaubten, klassische statistische Methoden um bis zu 0,41 F1-Punkte zu übertreffen; das Hinzufügen der beobachteten Daten brachte höchstens 0,11 mehr. Die Rangfolge dieser beiden Zahlen ist die ganze Geschichte: Die Labels leisteten die kausale Arbeit, und die Daten, die das Dashboard tatsächlich enthält, bewegten das Ergebnis kaum. Die Labels einer Einkäuferin sind generisch – „Preis”, „Einheiten”, „SKU” – sodass der Teil, auf den das Modell sich stützt, keine Antwort über ihr Geschäft enthält. Wenn Anbieter weiterhin Antworten der zweiten Stufe verkaufen, die auf Mechanismen der ersten Stufe aufgebaut sind, wird der Preis nicht als Fehlermeldung ankommen; er wird als eine Saison von Preisnachlässen ankommen, die auf ein Wetter getaktet wurden, das niemand gemessen hat, und als Nachbestellungen, die datengesteuert wirkten, es aber nicht waren.

Die Abhilfe ist günstig und alt, und sie heißt Experiment. Ein Dashboard kann einer Einkäuferin nicht sagen, warum ein Modell sich verkauft hat – aber es kann ihr sagen, was sie testen soll. Ein einziges Testgeschäft oder eine gestaffelte Preissenkung klärt die kausale Frage, die der Copilot nur vorgibt zu beantworten. Wenn Händler das „Warum” der Maschine als Hypothese behandeln, die überprüft werden muss, statt als Anweisung, der zu folgen ist, werden dieselben Tools, die sie in die Irre führen, zum günstigsten Weg, den Test zu konzipieren, der es nicht tut. Die Technologie, die keine Ursache finden kann, ist dennoch ihr Geld wert – sie ist eine Sprosse weniger wert, als auf der Rechnung steht.

Rack & Reason

KI kann Händlern sagen, was verkauft wurde. Warum, kann sie nicht erklären.

Verwandte Artikel