Quand les agents d'achat oublient leur rôle, le panier s'effondre

Une nouvelle recherche recensant 14 modes de défaillance dans les systèmes LLM multi-agents donne au commerce agentique un nom précis pour son risque le plus lourd de conséquences : la désobéissance de rôle, où les agents dérivent hors de leurs responsabilités assignées et produisent des séquences d'achat incohérentes qui érodent la confiance des acheteurs.

Sources utilisées :

Cemri et al., “Why Do Multi-Agent LLM Systems Fail?” (arXiv 2503.13657) — taxonomie MAST, 1 642 traces, 14 modes de défaillance, désobéissance de rôle à 1,5 %
Ao, Gao, & Simchi-Levi, “On the Reliability Limits of LLM-Based Multi-Agent Planning” (arXiv 2603.26993) — preuve théorique que les réseaux d’agents distribués sont dominés par des décideurs centralisés
Human Security, “The Definitive Guide to Adopting Agentic Commerce” (2026) — croissance du trafic agent de plus de 6 900 % sur huit mois en 2025, taux d’interaction avec le panier de 2,2 %
Forrester, “What It Means That The Leader In Agentic Commerce Just Pulled Back” — retrait d’OpenAI Instant Checkout, environ 30 marchands actifs
Blog Shopify sur le commerce agentique — croissance des commandes pilotées par IA multipliée par 15 en 2025
Mastercard Agent Pay et Verifiable Intent

La plus grande menace pesant sur le commerce agentique n’est pas un protocole manquant ni un modèle sous-dimensionné. C’est une défaillance de coordination que les chercheurs peuvent désormais nommer : la désobéissance de rôle. Une taxonomie des défaillances LLM multi-agents publiée par Cemri, Pan, Yang et leurs collègues recense 14 modes de défaillance distincts, tirés de 1 642 traces d’exécution annotées sur sept frameworks dont ChatDev, MetaGPT et Magentic-One. L’un de ces modes, référencé FM-1.2, décrit des agents qui cessent de respecter leurs responsabilités assignées et commencent à se comporter comme un autre agent dans le pipeline. Dans les benchmarks d’ingénierie logicielle, la désobéissance de rôle représente 1,5 % des défaillances observées. Dans un flux d’achat où chaque agent contrôle une frontière de confiance distincte, c’est la défaillance la plus susceptible de faire s’effondrer la transaction.

La taxonomie MAST classe les défaillances multi-agents en trois catégories : les défauts de conception système à 44 % de l’ensemble des défaillances observées, le désalignement inter-agents à 32 %, et les lacunes de vérification des tâches à 24 %. La répétition d’étapes est le mode individuel le plus fréquent à 15,7 %, suivie par le désaccord entre raisonnement et action à 13,2 %. La désobéissance de rôle se situe en bas du tableau des fréquences. Mais la fréquence n’est pas la gravité. Les chercheurs ont documenté un cas dans ChatDev où un agent chef de produit a mis fin à une conversation sans le consensus de l’agent PDG, contournant la hiérarchie de workflow dont le système dépendait. La défaillance était rare, mais elle a réécrit les règles en pleine exécution.

Le commerce agentique se développe précisément dans l’architecture où la désobéissance de rôle cause le plus de dégâts. Le guide d’adoption 2026 de Human Security indique que le trafic d’agents IA vers les sites de vente au détail a progressé de plus de 6 900 % sur huit mois en 2025, alors que seulement 2,2 % de ces agents ont interagi avec des paniers, des pages de paiement ou des tunnels de conversion. Par ailleurs, 87 % de toutes les pages consultées par ces agents étaient des pages produit. Shopify rapporte que les commandes pilotées par IA ont été multipliées par 15 en 2025. La couche de découverte fonctionne. La couche transactionnelle, là où la discipline de rôle compte le plus, n’existe à peine.

Un pipeline d’achat multi-agents attribue des rôles distincts tout au long de la chaîne : recherche, comparaison, gestion du panier, autorisation du paiement. Chacun reproduit une étape de la façon dont les humains achètent et dote l’agent d’un contexte délimité avec des outils bornés. La désobéissance de rôle fait s’effondrer cette séparation. L’agent de recherche commence à ajouter des articles sans que l’agent de comparaison ait son mot à dire, ou l’agent de paiement rouvre la phase de découverte produit en plein tunnel de commande. Du point de vue de l’acheteur, l’écran se met à faire des choses qui n’ont plus aucun sens. Chaque frontière de rôle dans un pipeline d’achat correspond à une frontière de confiance dans le modèle mental du client.

OpenAI a retiré sa fonctionnalité Instant Checkout en mars 2026 après qu’une trentaine de marchands Shopify l’avaient mise en ligne. Ce recul, relevé par Forrester, a confirmé ce que les données montraient déjà : finaliser un achat à l’intérieur d’un moteur de réponses est le cas d’usage consommateur le moins adopté. Le paiement est l’endroit où les erreurs d’agent deviennent irréversibles. Une recommandation de produit hallucinée coûte un clic ; un agent qui déborde de la comparaison vers la gestion du panier génère un chargeback et apprend au client à ne plus revenir. Une étude de mars 2026 signée Ao, Gao et Simchi-Levi a démontré que tout réseau multi-agents délégué est « théoriquement dominé en termes de décision » par un décideur centralisé disposant des mêmes informations — ce qui signifie que les architectures distribuées paient un impôt de fiabilité qui s’accumule à mesure que les rôles se brouillent. La perte s’amplifie avec le nombre de transferts et le volume d’informations compressées à chaque étape.

Mastercard n’a pas construit Agent Pay ni publié en open source une spécification Verifiable Intent parce que le commerce agentique fonctionnait bien.

Une objection raisonnable serait que 1,5 % constitue une erreur d’arrondi et que la répétition d’étapes ou les défaillances de vérification sont les modes auxquels les retailers devraient prêter attention. C’est plausible, mais seulement si chaque agent du pipeline gère des tâches interchangeables à faible enjeu. Un agent de recherche qui répète une requête fait perdre des secondes. Un agent de paiement qui se met à naviguer invalide une autorisation et risque de facturer au client un mauvais article. Les données MAST proviennent de frameworks de développement logiciel, pas de pipelines d’achat, ce qui signifie que le chiffre de 1,5 % sous-estime vraisemblablement l’exposition dans le commerce, où les frontières de rôle ont un poids financier et juridique.

La course aux infrastructures s’est concentrée sur les protocoles : les identifiants d’agents tokenisés de Mastercard, les storefronts agentiques de Shopify, les standards de commerce concurrents de Google et d’OpenAI. Ces initiatives résolvent les problèmes d’identité et de plomberie de paiement. Elles ne résolvent pas la gouvernance des rôles à l’intérieur du pipeline d’agents lui-même. Si les retailers construisent des flux d’achat sur des architectures d’agents spécialisés sans imposer quel agent fait quoi et à quel moment, ils découvriront ce que les chercheurs MAST ont déjà mesuré : le système échoue non pas parce que les agents individuels sont incompétents, mais parce que personne n’a fait respecter l’organigramme.