Les agents de shopping ont obtenu 76 % avec un client qui n'existe pas

Deux articles arXiv mesurent l'écart entre les agents de shopping LLM évalués par simulateur et ceux évalués par de vrais humains à environ trente points, et expliquent pourquoi des pilotes comme celui de Klarna ont discrètement revu à la baisse leurs affirmations sur l'automatisation.

L’écart entre les agents de shopping évalués par simulateur et ceux évalués par de vrais acheteurs est désormais quantifié — et il est bien plus grand que ce que le secteur a bien voulu admettre. Une étude publiée en janvier et un article compagnon tout récent ont placé de vrais consommateurs face à des agents de vente au détail pilotés par LLM, et ont constaté que les benchmarks surestimaient le taux de réussite d’environ trente points. Les pilotes qui ont discrètement relativisé leurs chiffres sur les assistants IA disposent désormais d’articles pour étayer leur position et d’une explication propre pour justifier l’écart.

Lost in Simulation a soumis des tâches du benchmark τ-Bench dans le secteur du retail à des acheteurs réels aux États-Unis, en Inde, au Kenya et au Nigeria, en maintenant GPT-4o comme agent. Face à des participants américains réels, GPT-4o a atteint 45,2 % ; le même agent affichait près de 76 % face à des utilisateurs simulés par Sonnet-4.5. Le benchmark et le terrain ne mesuraient pas le même agent.

L’écart n’est pas homogène. Les utilisateurs simulés sous-estimaient la réussite de l’agent sur les tâches les plus difficiles et la surestimaient sur les tâches intermédiaires, où les humains n’atteignaient que 39,0 %. Les performances chutaient encore de dix-neuf points entre les locuteurs plus âgés de l’AAVE et ceux de l’anglais américain standard, le simulateur étant le moins bien calibré pour l’AAVE et l’anglais indien. Le simulateur n’est pas simplement bruyant : il note avec assurance une population différente de celle que l’agent rencontrera réellement. L’erreur est structurée, pas aléatoire, et pointe systématiquement dans la même direction.

L’article compagnon Beyond Cooperative Simulators pose le diagnostic. Les simulateurs d’utilisateurs existants sont coopératifs, homogènes et pauvres sur le plan comportemental ; la nouvelle méthode — Persona Policies, ou PPol — génère par évolution des générateurs Python produisant des utilisateurs « flous, impatients ou réticents à partager des informations » — les termes sont ceux du résumé. Des annotateurs humains ont jugé ces nouveaux utilisateurs simulés comme étant humains dans 80,4 % des cas, soit environ le double du niveau de référence. Entraîner les agents contre ce simulateur plus exigeant a amélioré le taux de réussite des tâches de dix-sept points. Les deux articles convergent : le benchmark notait jusqu’ici un client qui n’existe pas.

A nautilus shell holds two report cards in its tentacles; one labeled "Simulated Shopper" graded 76%, one labeled "Real Shopper" graded 45%.

Le secteur du retail faisait la même observation depuis un moment, sans la mettre par écrit. Klarna a passé 2024 à se vanter que son assistant abattait le travail de sept cents conseillers ; en mai 2025, son PDG a déclaré à Bloomberg que les coupes avaient été trop loin et que l’entreprise reconstituait ses effectifs humains. Une étude sur Amazon Rufus a montré que les jumeaux numériques LLM s’alignaient sur les comportements humains et produisaient des retours de conception similaires — un résultat plus optimiste, bien que cette étude ait évalué des interactions en phase de conception plutôt que l’exécution de tâches en direct sous pression d’utilisateurs réels.

Ce que le benchmark valide, l’acheteur ne le confirme pas.

La défense classique est la suivante : un simulateur n’a pas à être précis, il doit seulement être utile pour le classement relatif ; si Sonnet 4.5 surpasse Sonnet 3.7 en simulation et le surpasse aussi en déploiement, les chiffres absolus ne sont que du décor. τ-Bench s’est imposé mi-2024 comme l’outil d’évaluation de référence précisément sur cette prémisse : peu coûteux, reproductible, efficace pour trier.

Cette défense s’effondre dans la colonne de l’Expected Calibration Error. Les auteurs de Lost in Simulation ont mesuré une ECE de 11,7 pour les locuteurs de l’anglais américain standard et de 20,3 pour les locuteurs de l’AAVE ; la confiance du simulateur dérive selon les groupes démographiques. La distorsion du classement est différentielle, pas uniforme. Deux agents à égalité dans le benchmark peuvent se retrouver dans des positions opposées dès lors que l’acheteur n’est plus le client que le simulateur avait imaginé. Le benchmark sélectionne en réalité des agents optimisés pour un client fictif bien particulier.

Le prix se paye là où les retailers ne mesurent pas encore. Un agent pilote qui atteint ses objectifs en simulation mais sous-performe de quarante points sur le terrain ne rate pas — il remplit simplement le seul chiffre sur lequel on l’a évalué, et ce chiffre avait été calibré contre un client poli qui répond à chaque question dès la première demande. La solution ne réside pas dans des modèles plus grands ; le goulot d’étranglement a quitté l’agent pour se loger dans le persona utilisé pour le noter. Les retailers qui veulent vraiment savoir si leur agent de shopping fonctionne devraient le tester contre l’acheteur grossier, le distrait, et celui qui refuse de saisir son code postal. PPol offre un moyen de construire ce test à faible coût, et le demi-tour de Klarna fournit un argument pour justifier la dépense auprès du conseil d’administration. Ces articles se trouvent désormais en amont de là où le secteur a échoué.