Wenn Shopping-Agenten ihre Aufgabe vergessen, bricht der Warenkorb zusammen

Eine neue Studie, die 14 Fehlermodi in Multi-Agenten-LLM-Systemen katalogisiert, gibt dem agentischen Handel einen präzisen Namen für sein folgenreichstes Risiko: Rollenverstoss, bei dem Agenten außerhalb ihrer zugewiesenen Verantwortlichkeiten agieren und inkohärente Kaufsequenzen erzeugen, die das Vertrauen der Käufer untergraben.

Verwendete Quellen:

Cemri et al., „Why Do Multi-Agent LLM Systems Fail?” (arXiv 2503.13657) — MAST-Taxonomie, 1.642 Traces, 14 Fehlermodi, Rollenverstoss bei 1,5 %
Ao, Gao & Simchi-Levi, „On the Reliability Limits of LLM-Based Multi-Agent Planning” (arXiv 2603.26993) — theoretischer Beweis, dass verteilte Agentennetzwerke von zentralisierten Entscheidungsträgern dominiert werden
Human Security, „The Definitive Guide to Adopting Agentic Commerce” (2026) — über 6.900 % Wachstum des Agenten-Traffics in acht Monaten des Jahres 2025, 2,2 % Warenkorbinteraktionsrate
Forrester, „What It Means That The Leader In Agentic Commerce Just Pulled Back” — Rückzug von OpenAI Instant Checkout, ca. 30 aktive Händler
Shopify agentic commerce blog — 15-faches Wachstum KI-gesteuerter Bestellungen im Jahr 2025
Mastercard Agent Pay und Verifiable Intent

Die größte Bedrohung für den agentischen Handel ist weder ein fehlendes Protokoll noch ein zu schwaches Modell. Es ist ein Koordinationsversagen, das Forschende inzwischen beim Namen nennen können: Rollenverstoss. Eine Taxonomie von Multi-Agenten-LLM-Fehlern, veröffentlicht von Cemri, Pan, Yang und Kolleginnen und Kollegen, katalogisiert 14 verschiedene Fehlermodi aus 1.642 annotierten Ausführungs-Traces über sieben Frameworks hinweg – darunter ChatDev, MetaGPT und Magentic-One. Einer dieser Modi, als FM-1.2 bezeichnet, beschreibt Agenten, die aufhören, ihre zugewiesenen Aufgaben zu erfüllen, und anfangen, sich wie ein anderer Agent in der Pipeline zu verhalten. In Software-Engineering-Benchmarks macht Rollenverstoss 1,5 % der beobachteten Fehler aus. In einem Kaufprozess, bei dem jeder Agent eine eigene Vertrauensgrenze kontrolliert, ist es der Fehlermodus, der am wahrscheinlichsten die gesamte Transaktion zum Scheitern bringt.

Die MAST-Taxonomie unterteilt Multi-Agenten-Fehler in drei Kategorien: Systemdesignfehler mit 44 % aller beobachteten Fehler, agentenübergreifende Fehlanpassungen mit 32 % und Aufgabenverifizierungslücken mit 24 %. Schrittwiederholung ist mit 15,7 % der häufigste Einzelmodus, gefolgt von Reasoning-Aktions-Diskrepanzen mit 13,2 %. Rollenverstoss rangiert nahe am unteren Ende der Häufigkeitstabelle. Doch Häufigkeit ist nicht gleich Schweregrad. Die Forschenden dokumentierten einen Fall in ChatDev, bei dem ein Chief-Product-Officer-Agent ein Gespräch ohne Konsens des CEO-Agenten beendete und damit die Workflow-Hierarchie, auf die das System angewiesen war, außer Kraft setzte. Der Fehler war selten – aber er schrieb die Regeln mitten im laufenden Betrieb um.

Der agentische Handel skaliert genau in die Architektur hinein, in der Rollenverstoss den größten Schaden anrichtet. Der Adoptionsleitfaden von Human Security (2026) berichtet, dass der KI-Agenten-Traffic auf Retail-Websites in acht Monaten des Jahres 2025 um mehr als 6.900 % gewachsen ist – und doch interagierten nur 2,2 % dieser Agenten mit Warenkörben, Checkout-Prozessen oder Zahlungstrichtern. Gleichzeitig entfielen 87 % aller von diesen Agenten besuchten Seiten auf Produktseiten. Shopify meldet, dass KI-gesteuerte Bestellungen im Jahr 2025 um das 15-Fache gestiegen sind. Die Entdeckungsschicht funktioniert. Die Transaktionsschicht – wo Rollendisziplin am wichtigsten ist – existiert kaum.

Eine Multi-Agenten-Shopping-Pipeline weist entlang der Kette klar abgegrenzte Rollen zu: suchen, vergleichen, den Warenkorb verwalten, die Zahlung autorisieren. Jede dieser Rollen spiegelt einen Schritt in der menschlichen Kaufentscheidung wider und gibt dem Agenten einen abgegrenzten Kontext mit eingeschränkten Werkzeugen. Rollenverstoss hebt diese Trennung auf. Der Such-Agent beginnt, Artikel hinzuzufügen, bevor der Vergleichs-Agent einbezogen wurde; oder der Zahlungs-Agent öffnet die Produktsuche mitten im Checkout-Prozess erneut. Aus Sicht der Käuferinnen und Käufer beginnt der Bildschirm Dinge zu tun, die keinen Sinn mehr ergeben. Jede Rollengrenze in einem Kaufprozess entspricht einer Vertrauensgrenze im mentalen Modell des Kunden.

OpenAI zog seine Instant-Checkout-Funktion im März 2026 zurück, nachdem etwa 30 Shopify-Händler live gegangen waren. Der Rückzug, von Forrester vermerkt, bestätigte, was die Daten bereits zeigten: Ein Kauf innerhalb einer Antwort-Engine abzuschließen ist der am wenigsten verbreitete Anwendungsfall für Verbraucher. Der Checkout ist der Punkt, an dem Agentenfehler irreversibel werden. Eine halluzinierte Produktempfehlung kostet einen Klick; ein Agent, der vom Vergleich in die Warenkorbverwaltung übergreift, erzeugt eine Rückbuchung und bringt den Kunden dazu, nicht wiederzukommen. Eine Studie von Ao, Gao und Simchi-Levi vom März 2026 bewies, dass jedes delegierte Multi-Agenten-Netzwerk „entscheidungstheoretisch dominiert” wird von einem zentralisierten Entscheidungsträger mit denselben Informationen – was bedeutet, dass verteilte Architekturen eine Zuverlässigkeitssteuer zahlen, die sich verstärkt, wenn Rollen verschwimmen. Der Verlust skaliert mit der Anzahl der Übergaben und dem Volumen der an jeder Stufe komprimierten Informationen.

Mastercard hat Agent Pay nicht entwickelt und eine Verifiable-Intent-Spezifikation nicht als Open Source veröffentlicht, weil der agentische Handel reibungslos funktioniert hätte.

Ein naheliegender Einwand lautet, dass 1,5 % ein Rundungsfehler sind und dass Schrittwiederholung oder Verifizierungsausfälle die Modi sind, die Händler im Blick behalten sollten. Das ist plausibel – aber nur, wenn jeder Agent in der Pipeline austauschbare, risikoarme Aufgaben übernimmt. Ein Such-Agent, der eine Anfrage wiederholt, verschwendet Sekunden. Ein Checkout-Agent, der zu browsen beginnt, macht eine Autorisierung ungültig und belastet den Kunden möglicherweise für den falschen Artikel. Die MAST-Daten stammen aus Software-Entwicklungs-Frameworks, nicht aus Kaufprozessen – was bedeutet, dass die 1,5 % das tatsächliche Risiko im Handel wahrscheinlich unterschätzen, wo Rollengrenzen finanzielle und rechtliche Bedeutung haben.

Das Infrastrukturrennen hat sich auf Protokolle konzentriert: Mastercards tokenisierte Agentenzugangsdaten, Shopifys agentische Storefronts, Googles und OpenAIs konkurrierende Commerce-Standards. Diese lösen Fragen der Identität und der Zahlungsinfrastruktur. Sie lösen nicht das Problem der Rollenkontrolle innerhalb der Agenten-Pipeline selbst. Wenn Händler Kaufprozesse auf spezialisierten Agentenarchitekturen aufbauen, ohne durchzusetzen, welcher Agent was und wann tut, werden sie herausfinden, was die MAST-Forschenden bereits gemessen haben: Das System scheitert nicht, weil einzelne Agenten inkompetent sind, sondern weil niemand den Organigramm durchgesetzt hat.