Händler haben die Apps geliefert. Der Benchmark ist noch immer ein Preprint.

Händler haben Apps in ChatGPT und Claude schneller lanciert, als Akademiker Evaluierungsrahmen dafür entwickeln können. Das nächste, was einem öffentlichen Benchmark gleicht, zeigt dasselbe Produkt mit einer 13-fachen Streuung bei der Agenten-Auswahl über Frontier-Modelle hinweg – und ist noch immer ein Preprint.

Walmart, Target und Etsy haben seit der Öffnung des Apps SDK durch OpenAI Commerce-Apps in ChatGPT eingeführt. Das, was einem öffentlichen Benchmark für die tatsächlichen Auswirkungen dieser Apps auf die Nachfrage am nächsten kommt, wurde zuletzt am 17. Dezember 2025 überarbeitet. Keine der Händler-Ankündigungen, die wir gesehen haben, hat ihn zitiert. Die Launch-Kurve ist steiler als die Evaluierungskurve – was bedeutet, dass die meisten dieser Apps im Produktionsbetrieb an Käufern getestet werden, die nicht wissen, dass sie das Eval-Set sind.

Seitdem sind die Storefronts in Wellen eingetroffen. OpenAIs Instant Checkout startete mit Etsy; Walmart folgte am 14. Oktober. Bis März 2026 hatte OpenAI eingestanden, dass der ursprüngliche Ablauf holperte, und schwenkte auf In-ChatGPT-Apps mit Sparky um; Target, Sephora, Nordstrom und andere integrierten separat über das Agents Commerce Protocol. Googles Universal Commerce Protocol nahm am 22. April 2026 Ulta auf; der Ask Macy’s-Agent wurde am darauffolgenden Tag über Googles Commerce-Technologie eingebunden. Jeder Launch kam mit einer Pressemitteilung und einem Partner-Zitat – keiner mit einem veröffentlichten Evaluierungsrahmen.

Die Standardreferenz für die Evaluierung von Shopping-Agenten ist noch immer WebShop, ein Princeton-Paper von NeurIPS 2022, das auf 1,18 Millionen Produkten und Crowdsourced-Kaufanweisungen aufbaut. WebMall vom August 2025 erweitert die Trajektorienlänge und die Multi-Shop-Oberfläche; Princetons Holistic Agent Leaderboard bietet eine kostenberücksichtigende Evaluierungsinfrastruktur über Agent-Benchmarks hinweg, die für ICLR 2026 akzeptiert wurde. Keines davon ist in Hersteller-Sprachregelungen eingegangen. Händler starten gegen Agenten, die die akademische Literatur noch nicht eingeholt hat.

Dasselbe Produkt, drei Modelle, drei verschiedene Läden.

Ein Arbeitspapier vom August 2025, überarbeitet im Oktober und erneut im Dezember, fragte, was passiert, wenn ein einzelner KI-Agent denselben simulierten Marktplatz durchkauft. “What Is Your AI Agent Buying?” von Allouah, Besbes, Figueroa, Kanoria und Kumar ließ mehrere Frontier-Modelle durch ACES laufen, einen agentischen E-Commerce-Simulator mit zufallsbasierten Positionen, Preisen und Auszeichnungen. Bei einem Fitness-Tracker lag die Auswahlrate des Fitbit Inspire unter GPT-5.1 bei 6 % – eine Zahl, die im Einzelhandel ein Long-Tail-SKU kurz vor der Auslisting beschreibt. Wird der Agent auf Claude Opus 4.5 gewechselt, kommt dasselbe Produkt auf 77 % – einen Anteil, der normalerweise Exklusivartikeln vorbehalten ist. Die Ware hat sich zwischen den Läufen nicht verändert; der Agent dahinter schon, und die Nachfrageverteilung verschob sich um mehr als eine Größenordnung.

Ein Händler, der sowohl in ChatGPT als auch in Claude integriert ist, hat effektiv zwei Storefronts gebaut, deren Conversion-Verhalten von seinen Merchandising-Entscheidungen entkoppelt ist. Das ACES-Paper dokumentiert, dass alle getesteten Modelle gesponserte Auszeichnungen um etwa 20 % bestrafen – eine einheitliche Unterdrückung, die das Standard-Retail-Media-Playbook bereits außer Kraft setzt. Eine „Overall Pick”-Empfehlung hebt die Auswahl dagegen je nach Modell um 65 bis 138 % an – ein ganz andersartiger Merchandising-Hebel. Positionierungs-Bias verstärkt die Asymmetrie: GPT-4.1 bevorzugt die erste Spalte, Claude Sonnet 4 die Mitte, und GPT-5.1 zeigt Präferenzen, die die Autoren als nahezu entgegengesetzt zu denen von GPT-4.1 beschreiben. Nichts davon ist über ein händlerseitiges Dashboard testbar. Der Händler sieht die Bestellungen, die der Agent weitergeleitet hat – nicht die Produkte, die der Agent stillschweigend übergangen hat. Das Fehlen von Impressionen ist nicht das Fehlen eines Problems.

Die Fragmentierung über verschiedene Anbieter macht das Evaluierungsproblem eher schlimmer, als dass sie sich herausmittelt. ChatGPT leitet Walmart-, Target- und Etsy-Anfragen an händlereigene Apps weiter; Claude leitet Anfragen über kategorieeigene Apps; Google leitet sie über Universal Commerce Protocol-Partner wie Ulta und – über seine breitere Commerce-Infrastruktur – Macy’s. Jede Oberfläche stellt eine andere Entscheidung in den Vordergrund: ChatGPTs Ansatz bewahrt die Händlermarke, Claudes die Kategoriemarke, Googles das Protokoll. Eine Merchandising-Leitung, die für alle drei baut, wählt, wie sie über drei verschiedene Nachfragefunktionen mit drei verschiedenen Selektions-Biases hinweg konkurriert – ohne dass eine davon in der eigenen Analyse sichtbar ist.

Die naheliegende Antwort lautet, dass A/B-Tests in der Produktion die eigentliche Evaluierung sind und akademische Benchmarks immer hinterherhinken. Das stimmt – wenn das System, das man testet, stabil ist. Die Voraussetzung, die erfüllt sein muss, damit dieses Argument greift, ist, dass sich das Modellverhalten zwischen Vendor-Releases nicht sprunghaft verändert. ACES zeigt, dass es das tut – GPT-5.1s Positionierungs-Bias verläuft nahezu entgegengesetzt zu dem von GPT-4.1. Wer dienstags einen A/B-Test durchführt, hat am Mittwoch nach dem nächsten Modell-Update veraltete Ergebnisse. Conversion-Daten sagen, welche Variante des Prompts mehr verkauft hat; sie können nicht sagen, dass der Agent das eigene Produkt nach einem Modell-Wechsel gar nicht mehr angezeigt hat.

Was die Händler ausgeliefert haben, ist ein Mietverhältnis in der Verkostungsauswahl eines anderen. Wenn die Evaluierungsinfrastruktur so weit hinter der Launch-Infrastruktur zurückbleibt, wirkt jede neue Modellversion von OpenAI oder Anthropic wie eine unangekündigte Merchandising-Entscheidung, die der Händler nicht einsehen kann. Der Preis des frühen Einstiegs ist, an den Release Notes des Anbieters gemessen zu werden – nicht an den eigenen. ACES könnte zum öffentlichen Test werden, den jede Commerce-Integration bestehen muss, so wie SOC 2 zur Mindestanforderung für SaaS-Anbieter wurde. Die Alternative ist das Amazon-Ergebnis: Händler erfahren, was ihre App tut, indem sie beobachten, wie der Marktanteil, den sie einmal hatten, innerhalb eines Quartals verdunstet – ohne Protokoll darüber, welcher Modell-Wechsel es ausgelöst hat.