Der Shopping-Agent muss auf deinen Bildschirm schauen. Was er sieht, gehört dem Händler.
Screenshot-gesteuerte Shopping-Agenten erfassen jeden Bildschirm, auf dem sie Transaktionen durchführen, und verwandeln jeden davon in eine Datenschutzgrenze, die der agentische Handel nie in den Preis der Bequemlichkeit eingerechnet hat. Wenn ein Agent die Bezahldaten eines Kunden preisgibt, trifft die Haftung den Händler, dessen Seite abfotografiert wurde – nicht den Modellanbieter, den der Kunde nie gewählt hat.
Neritus Vale
Ein Shopping-Agent, der für dich einkauft, muss zuerst auf deinen Bildschirm schauen – und genau darin liegt die eigentliche Gefahr. Die Agenten, die heute im Auftrag von Käufern surfen und Bestellungen abschließen – Operator, Anthropics Computer Use, die in die Browser von Perplexity und Opera integrierten Assistenten – folgen alle demselben Muster: Screenshot aufnehmen, ihn mit einem Sprachmodell auswerten, entscheiden, worauf zu klicken ist, den nächsten Screenshot machen. Jeder Bildschirm, den der Agent berührt, wird zur Datenschutzgrenze – denn der Screenshot kann die Produktfotografie nicht von der darunter automatisch eingetragenen Kartennummer unterscheiden. Der agentische Handel hat die Bequemlichkeit ausgeliefert und die damit verbundenen Risiken stillschweigend übergangen. Die Rechnung geht an den Händler.
Der Screenshot ist strukturell unterschiedslos – genau das, was kein Checkout-Demo zeigt. Als Anthropic im Oktober 2024 Computer Use vorstellte, beschrieb es den Ablauf klar: Claude schaut auf den Bildschirm, liest was dort steht und handelt – und erfasst dabei genau das, was ein Mensch am gleichen Gerät sehen würde. Dieser Ausschnitt schließt ein, was man einem Modellanbieter nie hätte zukommen lassen wollen: der im Hintergrund offene Bankreiter, die hereingleitende E-Mail-Vorschau, das Adressbuch hinter der Storefront. Anthropic selbst hat darauf hingewiesen und erklärt, Computer Use könne „einen neuen Angriffsvektor für vertrautere Bedrohungen wie Spam, Desinformation oder Betrug darstellen”, und Entwickler aufgefordert, „mit risikoarmen Aufgaben zu beginnen”. Ein System, das im reinen Screenshot-Modus auf dem OSWorld-Benchmark 14,9 Prozent erreichte, ließ sich noch mit einem Hinweis versehen; dasselbe System, dem heute zugetraut wird, einen Kauf abzuschließen, nicht mehr.
Dann gibt es noch das Versagen in die andere Richtung: Der Bildschirm kann den Agenten, der ihn liest, selbst angreifen.
Im Oktober 2025 zeigte Braves Sicherheitsteam, dass diese Grenze in beide Richtungen durchlässig ist. Die Forscher versteckten einen Befehl in einem Webbild als blassblauer Text auf gelbem Grund – für das menschliche Auge unsichtbar, für das Sprachmodell jedoch lesbar. Als ein Nutzer von Perplexitys Comet-Browser eine Seite mit diesem versteckten Text abfotografierte, las das Modell die Anweisung und gehorchte: Der eingeschleuste Text veranlasste Comet, seine Browser-Tools im Auftrag des Angreifers einzusetzen – und der Agent konnte die Worte des Fremden nicht von denen seines eigentlichen Nutzers unterscheiden. Brave bezeichnete das Problem als systemisch für alle KI-Browser, hatte ähnliche Injection-Lücken in Fellou und Operas Neon gefunden und führte alles auf eine gemeinsame Ursache zurück: das Versäumnis, „klare Grenzen zwischen vertrautem Nutzer-Input und nicht vertrauenswürdigem Web-Inhalt aufrechtzuerhalten”. Der Screenshot ist gleichzeitig das Auge des Agenten und seine offene Tür.

Die Branche erzählt zwei Geschichten über dieses Risiko – und beide schauen am eigentlichen Problem vorbei. Die erste ist die Bequemlichkeitsgeschichte: Du bittest ChatGPT, die Sneakers zu kaufen, und es erledigt das. Die zweite ist die Sicherheitsgeschichte: Die Gefahr heißt Prompt Injection, und die Antwort ist eine bessere Absicherung. OpenAI hat diese bessere Absicherung gebaut: Operator übergibt bei Anmeldedaten und Zahlungen die Kontrolle wieder an den Nutzer, hält inne und holt Bestätigung ein, bevor sensible Eingaben gemacht werden, und das CUA-Modell ist darauf ausgelegt, Prompt Injections zu erkennen und zu ignorieren – in einer frühen Red-Team-Session wurden bis auf einen Fall alle erkannt. Das ist eine starke Absicherung – und die falsche Beruhigung. Eine Schicht, die fast jede Injection stoppt, erfasst dennoch weiterhin den Bildschirm, schickt den Frame noch immer an einen Server, den du nicht betreibst, und behandelt deine Checkout-Seite als gewöhnlichen Input, solange nichts auslöst.
Das stärkste Gegenargument ist, dass der Screenshot eine Übergangstechnologie ist, die bereits herausdesignt wird. Stripes und OpenAIs Agentic Commerce Protocol ermöglicht es einem Händler, über eine einzige Integration und einen Shared Payment Token an einen Agenten zu verkaufen – „begrenzt auf einen bestimmten Händler und einen bestimmten Warenkorb-Betrag”. Auf dieser Basis wird die Karte nie auf einem Bildschirm angezeigt, den der Agent abfotografieren kann. Glossier, SKIMS und Vuori gehören zu den Modemarken, die sich darauf einreihen und damit genau diese Absicherung erkaufen. Googles konkurrierendes Agent Payments Protocol, das von Mastercard, American Express und PayPal sowie rund sechzig weiteren Unternehmen unterstützt wird, erreicht dasselbe Ziel durch einen signierten Nachweis, dass eine echte Person einen konkreten Kauf autorisiert hat. Wenn der Checkout weiter auf diese Schienen wechselt, erreicht der sensibelste Frame nie den Screenshot-Loop – und die beschriebene Grenze schließt sich dort, wo es am meisten zählt.
Die Schienen schließen die Grenze nur dort, wo sie verlaufen – und sie verlaufen auf einem Bruchteil des Webs. Ein Protokoll schützt den Checkout eines Händlers, der es integriert hat, und tut nichts für das Surfen davor: den Preisvergleich über vier Tabs, den Treuekonto-Login, den halbgefüllten Warenkorb auf einer Seite, die sich nie angemeldet hat. Der universelle Screenshot-Agent existiert genau deshalb, weil er dort funktioniert, wo die Protokolle es nicht tun – und genau diese Universalität ist der Grund, warum er skaliert, und warum die Risiken bestehen bleiben. Die Schienen lösen den Screenshot nicht ab; sie legen eine sichere Spur auf einer Straße, die der Agent nach wie vor von Ende zu Ende befährt. Die Bequemlichkeit, die Händlern verkauft wird, ist diese eine Spur; die Haftung, mit der sie konfrontiert werden, betrifft alles drumherum.
Wenn die Panne kommt, wird der Kunde nicht den Modellanbieter anrufen, den er nie gewählt hat – er wird das Geschäft anrufen. Er hat seine Daten dem Händler anvertraut: dem Namen auf dem Kassenbon. Das Datenschutzrecht folgt diesem Instinkt: Wer entscheidet, warum und wie personenbezogene Daten erhoben werden, haftet dafür, wo sie landen – auch wenn jemand anderes das Leck verursacht hat. Ein Händler, der agentisches Checkout einschaltet, lädt den Screenshot-Loop auf seine eigene Zahlungsseite ein und übernimmt damit die Pflicht zu wissen, was dieser Loop erfasst und versendet. Das ist keine ferne Hypothese; es ist die Frage, wessen Name dem Kunden am nächsten steht, wenn ein Checkout-Frame dort auftaucht, wo er nicht hingehört. Dieser Name ist nicht OpenAI oder Google. Es ist das Geschäft.
Händler können die Risiken noch einpreisen, anstatt ihnen erst am Tag des Datenlecks zu begegnen. Einpreisen bedeutet: den Screenshot-Agenten als Kanal mit eigenen Bedingungen behandeln. Auf das Protokoll statt auf den rohen Browser bestehen. Einen Zahlungstoken verlangen, der auf einen einzigen Warenkorb beschränkt ist. Einem scopelosen Agenten verbieten, eine eingeloggte Sitzung abzufotografieren. Und festhalten, wo die Grenze verläuft – damit es eine Antwort gibt, wenn eine Aufsichtsbehörde fragt. Wenn der agentische Checkout weiterhin schneller ankommt, als Händler diese Bedingungen formulieren, bleibt die Bequemlichkeit kostenlos und das Risiko unbepreist – bis ein einziges geleaktes Checkout den Preis für die gesamte Branche festsetzt. Der Bildschirm, den der Agent sehen muss, ist derzeit noch Sache des Händlers zu gestalten. Was er diesem Agenten zeigt, ist eine Entscheidung – noch kein Schicksal.