Les enseignes ont lancé leurs apps. Le benchmark est encore un preprint.
Les enseignes ont déployé des applications dans ChatGPT et Claude plus vite que les chercheurs académiques ne parviennent à construire des cadres d'évaluation. Le document qui s'en approche le plus montre le même produit obtenant un écart de 13x dans la sélection par agent selon les modèles frontier — et il est encore à l'état de preprint.
Neritus Vale
Walmart, Target et Etsy ont lancé des applications commerciales dans ChatGPT depuis qu’OpenAI a ouvert son Apps SDK. Ce qui ressemble le plus à un benchmark public sur l’effet réel de ces applications sur la demande a été révisé pour la dernière fois le 17 décembre 2025. Aucune des annonces de lancement que nous avons examinées ne le cite. La courbe de déploiement dépasse la courbe d’évaluation, ce qui signifie que la plupart de ces applications sont testées en production sur des acheteurs qui ignorent qu’ils constituent l’ensemble d’évaluation.
Depuis lors, les vitrines se sont multipliées par vagues. L’Instant Checkout d’OpenAI a été lancé avec Etsy ; Walmart l’a rejoint le 14 octobre. En mars 2026, OpenAI a reconnu que le flux initial avait trébuché et pivoté vers des applications intégrées à ChatGPT avec Sparky ; Target, Sephora, Nordstrom et d’autres se sont intégrés séparément via l’Agents Commerce Protocol. Le Universal Commerce Protocol de Google a accueilli Ulta le 22 avril 2026 ; l’agent Ask Macy’s a intégré la technologie commerce de Google le lendemain. Chaque lancement s’est accompagné d’un communiqué de presse et d’une citation de partenariat ; aucun n’a été accompagné d’un cadre d’évaluation publié.
La référence standard pour l’évaluation des agents d’achat reste WebShop, un article de Princeton présenté à NeurIPS 2022 construit autour de 1,18 million de produits et d’instructions d’achat collectées via crowdsourcing. WebMall, paru en août 2025, étend la longueur des trajectoires et la surface multi-boutiques ; le Holistic Agent Leaderboard de Princeton fournit une infrastructure d’évaluation tenant compte des coûts pour l’ensemble des benchmarks agents, accepté à ICLR 2026. Ni l’un ni l’autre n’est apparu dans les argumentaires commerciaux des fournisseurs. Les enseignes lancent leurs intégrations face à des agents que la littérature académique n’a pas encore rattrapés.
Même produit, trois modèles, trois vitrines différentes.
Un working paper d’août 2025, révisé en octobre puis en décembre, a posé la question de ce qui se passe quand un agent IA unique fait ses achats sur un même marché simulé. “What Is Your AI Agent Buying?”, signé Allouah, Besbes, Figueroa, Kanoria et Kumar, a fait passer plusieurs modèles frontier par ACES, un simulateur de commerce agentique avec des positions, des prix et des badges aléatoires. Pour un tracker de fitness, le taux de sélection du Fitbit Inspire s’établissait à 6 % avec GPT-5.1 — le genre de chiffre qui, en commerce, caractérise un SKU de longue traîne sur le point d’être retiré de la vente. Remplacez l’agent par Claude Opus 4.5 et le même produit atteint 77 %, une part normalement réservée aux exclusivités. La marchandise n’a pas changé entre les deux scénarios ; c’est l’agent qui la présentait qui a changé, et la distribution de la demande a bougé de plus d’un ordre de grandeur.
Un enseigne intégré à la fois dans ChatGPT et Claude a en pratique construit deux vitrines dont le comportement de conversion est découplé de ses décisions de merchandising. L’article ACES documente que tous les modèles testés pénalisent les badges sponsorisés d’environ 20 %, une suppression uniforme qui casse déjà le schéma classique du retail media. Un label “Overall Pick”, en revanche, fait progresser la sélection de 65 à 138 % selon le modèle — un levier de merchandising de forme radicalement différente. Le biais de position amplifie l’asymétrie : GPT-4.1 favorise la première colonne, Claude Sonnet 4 le centre, et GPT-5.1 affiche des préférences que les auteurs décrivent comme quasi opposées à celles de GPT-4.1. Rien de tout cela n’est testable depuis un tableau de bord côté enseigne. L’enseigne voit les commandes transmises par l’agent, pas les produits que l’agent a discrètement ignorés — et l’absence d’impressions n’est pas l’absence d’un problème.
La fragmentation entre les fournisseurs aggrave le problème d’évaluation au lieu de le moyenner. ChatGPT route les requêtes Walmart, Target et Etsy vers des applications appartenant aux enseignes ; Claude route les requêtes via des applications appartenant aux catégories ; Google les route via ses partenaires du Universal Commerce Protocol comme Ulta et, à travers son infrastructure commerce plus large, Macy’s. Chaque surface met en avant une décision différente : celle de ChatGPT préserve la marque de l’enseigne, celle de Claude la marque de la catégorie, celle de Google le protocole. Un responsable merchandising qui construit pour les trois choisit comment concurrencer à travers trois fonctions de demande différentes avec trois biais de sélection différents — aucun d’eux visible dans sa propre analytique.
La réponse défendable est que les tests A/B en production constituent la vraie évaluation, et que les benchmarks académiques ont toujours un temps de retard. C’est vrai si le système que l’on teste est stable. La condition nécessaire pour que cet argument tienne est que le comportement des modèles ne se décale pas de façon discontinue entre les releases des fournisseurs. ACES montre que si — le biais de position de GPT-5.1 est quasi opposé à celui de GPT-4.1. Lancez un A/B test le mardi et la réponse est périmée dès la mise à jour du modèle du mercredi. Les données de conversion indiquent quelle variante de votre prompt a le plus vendu ; elles ne peuvent pas indiquer que l’agent a cessé d’afficher votre produit après un changement de modèle.
Ce que les enseignes ont déployé, c’est une présence locataire dans le menu de dégustation de quelqu’un d’autre. Si l’infrastructure d’évaluation reste aussi loin derrière l’infrastructure de lancement, la prochaine release d’OpenAI ou d’Anthropic fonctionnera comme une décision de merchandising non annoncée que l’enseigne ne peut pas auditer. Le prix d’être précoce, c’est d’être mesuré par les notes de version de son fournisseur plutôt que par les siennes. ACES pourrait devenir le test public que toute intégration commerce doit passer, à la manière dont SOC 2 est devenu le minimum requis pour le SaaS. L’alternative, c’est le scénario Amazon : les enseignes découvrent ce que fait leur application en regardant la part qu’ils détenaient auparavant s’évaporer sur un trimestre, sans journal indiquant quel changement de modèle en est responsable.