Agentic Commerce

L'agent de shopping doit voir votre écran. Le détaillant est propriétaire de ce qu'il voit.

Les agents d'achat pilotés par captures d'écran enregistrent chaque écran sur lequel ils effectuent des transactions, faisant de chacun une frontière de confidentialité que le commerce agentique n'a jamais intégré dans le prix de la commodité. Lorsqu'un agent divulgue les informations de paiement d'un client, la responsabilité incombe au détaillant dont la page a été capturée, et non au fournisseur de modèle que le client n'a jamais choisi.

An eye built from camera-shutter blades hovers over a laptop checkout screen, reflecting a credit card, an open email, and a bank balance.

Neritus Vale

Un agent d’achat qui achète pour vous doit d’abord regarder votre écran, et c’est ce regard qui constitue toute l’exposition. Les agents qui naviguent et passent commande au nom d’un acheteur — Operator, Computer Use d’Anthropic, les assistants intégrés aux navigateurs de Perplexity et d’Opera — exécutent tous la même boucle : prendre une capture d’écran, la lire avec un modèle de vision, décider où cliquer, en prendre une autre. Chaque écran que l’agent touche devient une frontière de confidentialité, car la capture d’écran ne peut distinguer la photo du produit du numéro de carte bancaire rempli automatiquement en dessous. Le commerce agentique a livré la commodité et a discrètement oublié de tarifer l’exposition. La facture arrive à l’adresse du détaillant.

La capture d’écran est indiscriminée par conception — une propriété qu’aucune démo de paiement ne vous montre. Lorsque Anthropic a introduit Computer Use en octobre 2024, il a décrit la boucle clairement : Claude regarde l’écran, lit ce qui s’y trouve et agit, capturant exactement ce qu’une personne devant la machine verrait. Ce cadre inclut ce que vous n’aviez jamais eu l’intention de confier à un fournisseur de modèle : l’onglet bancaire laissé ouvert, l’aperçu d’e-mail qui apparaît, le carnet d’adresses derrière la vitrine. Anthropic l’a signalé lui-même, avertissant que l’utilisation de l’ordinateur « pourrait offrir un nouveau vecteur pour des menaces plus connues telles que le spam, la désinformation ou la fraude », et conseillant aux développeurs de « commencer l’exploration avec des tâches à faible risque ». Une boucle qui obtenait 14,9 % sur le benchmark OSWorld en mode capture d’écran uniquement était facile à nuancer ; la même boucle, désormais chargée de finaliser un achat, ne l’est plus.

Il existe aussi la défaillance inverse : l’écran peut attaquer l’agent qui le lit.

En octobre 2025, l’équipe de sécurité de Brave a montré que la frontière est poreuse dans les deux sens. Ses chercheurs ont caché une commande dans une image web sous forme de texte bleu clair à peine visible sur un fond jaune, invisible à l’œil humain mais lisible par la vision du modèle. Lorsqu’un utilisateur du navigateur Comet de Perplexity a capturé une page contenant ce texte caché, le modèle a lu l’instruction et obéi — le texte planté dirigeait Comet à utiliser ses outils de navigation au profit de l’attaquant, et l’agent ne pouvait pas séparer les mots de l’inconnu de ceux de son propriétaire. Brave a présenté le problème comme systémique dans l’ensemble des navigateurs IA, ayant également trouvé des failles d’injection dans Fellou et Neon d’Opera, et l’a attribué à une seule cause : l’incapacité à « maintenir des frontières claires entre les entrées utilisateur de confiance et le contenu Web non fiable ». La capture d’écran est à la fois l’œil de l’agent et sa porte ouverte.

A shopping-bag robot's scan beam reads pale-blue hidden text on a yellow web banner as a corner padlock springs open.

L’industrie raconte deux histoires sur ce risque, et toutes deux passent à côté de l’essentiel. La première est celle de la commodité, où vous demandez à ChatGPT d’acheter les baskets et il le fait ; la seconde est celle de la sécurité, où le danger est l’injection de prompt et la réponse est un meilleur garde-fou. OpenAI a construit ce meilleur garde-fou : Operator vous rend le contrôle pour les connexions et les paiements, s’interrompant pour demander votre confirmation avant toute saisie sensible, et le modèle CUA est conçu pour identifier et ignorer les injections de prompt, reconnaissant tous les cas sauf un lors d’une session red-team précoce. C’est un solide garde-fou — et une mauvaise réassurance. Une couche qui arrête presque toutes les injections continue néanmoins à capturer l’écran, à envoyer le cadre vers un serveur que vous ne gérez pas, et à traiter votre page de paiement comme une entrée ordinaire jusqu’à ce que quelque chose se déclenche.

L’argument le plus solide contre cette thèse est que la capture d’écran est une technologie transitoire, déjà en cours d’élimination. L’Agentic Commerce Protocol de Stripe et OpenAI permet à un commerçant de vendre à un agent via une seule intégration et un Shared Payment Token « limité à un commerçant spécifique et à une valeur de panier spécifique ». Sur cette voie, la carte n’est jamais affichée sur un écran que l’agent peut capturer. Glossier, SKIMS et Vuori comptent parmi les marques de mode qui s’y alignent, achetant cette protection. L’Agent Payments Protocol concurrent de Google, soutenu par Mastercard, American Express et PayPal parmi une soixantaine d’entreprises, parvient au même résultat via une preuve signée qu’une vraie personne a autorisé un achat spécifique. Si le paiement continue de migrer vers ces rails, le cadre le plus sensible n’atteint jamais la boucle de capture d’écran, et la frontière que j’ai décrite se ferme là où cela compte le plus.

Les rails ne ferment la frontière que là où ils s’étendent, et ils n’atteignent qu’une fraction du web. Un protocole protège le paiement d’un commerçant qui l’a intégré et ne fait rien pour la navigation qui précède : la comparaison de prix sur quatre onglets, la connexion au programme de fidélité, le panier à moitié rempli sur un site qui n’a jamais adhéré. L’agent de capture d’écran universel existe précisément pour fonctionner là où les protocoles n’atteignent pas, et cette universalité est à la fois la raison pour laquelle il s’étend et celle pour laquelle l’exposition reste active. Les rails ne mettent pas fin à la capture d’écran ; ils tracent une voie sécurisée sur une route que l’agent parcourt encore de bout en bout. La commodité vendue aux détaillants, c’est cette voie ; l’exposition dont ils devront répondre, c’est tout ce qui l’entoure.

Quand la fuite arrivera, le client n’appellera pas le fournisseur de modèle qu’il n’a jamais choisi ; il appellera le magasin. C’est au détaillant qu’il a confié ses informations — le nom sur le reçu. Le droit à la protection des données suit cette intuition : la partie qui décide pourquoi et comment les données personnelles sont collectées répond de leur destination finale, même lorsque c’est quelqu’un d’autre qui a provoqué la fuite. Un détaillant qui active le paiement agentique invite la boucle de capture d’écran sur sa propre page de paiement et assume le devoir de savoir ce que cette boucle capture et envoie. Ce n’est pas une hypothèse lointaine ; c’est une question de savoir quel nom se trouve le plus proche du client lorsqu’un cadre de paiement apparaît là où il ne devrait pas. Ce nom n’est pas OpenAI ou Google. C’est le magasin.

Les détaillants peuvent encore chiffrer l’exposition plutôt que de l’affronter le jour de la violation. La chiffrer signifie traiter l’agent de capture d’écran comme un canal avec des conditions : insister sur le protocole plutôt que sur le navigateur brut, exiger un token de paiement limité à un seul panier, refuser qu’un agent non délimité prenne en capture d’écran une session authentifiée, et consigner l’emplacement de la frontière pour pouvoir répondre lorsqu’un régulateur posera la question. Si le paiement agentique continue d’arriver plus vite que les détaillants n’écrivent ces conditions, la commodité restera gratuite et l’exposition restera non chiffrée jusqu’à ce qu’un seul paiement divulgué fixe le prix pour l’ensemble du secteur. L’écran que l’agent doit voir appartient encore, pour l’instant, au détaillant à concevoir. Ce qu’il montre à cet agent est une décision, pas encore un destin.