L'IA peut dire aux retailers ce qui s'est vendu. Elle ne peut toujours pas leur dire pourquoi.

Les tableaux de bord aux « insights proactifs » vendus aux acheteurs mode promettent d'expliquer pourquoi un modèle s'est vendu. Les recherches en inférence causale affirment que l'explication est précisément ce que les grands modèles ne peuvent pas extraire d'un historique de ventes — ce qui transforme leurs recommandations de démarque et de réassort en corrélations déguisées en causalités.

Les nouveaux outils d’analyse vendus aux acheteurs mode répondent à la question que ces derniers se posent le plus, et y répondent mal. Demandez à l’un d’eux pourquoi une robe s’est vendue, il vous retourne une phrase fluide et précise sur la cause. Ces copilotes sont commercialisés comme une fenêtre proactive sur ce qui a propulsé ou freiné une vente ; les recherches sur la façon dont les grands modèles de langage traitent la causalité affirment que la cause est précisément ce qu’ils ne peuvent pas extraire de l’historique de ventes qu’ils lisent.

Le test le plus net de cet écart a demandé aux modèles de distinguer corrélation et cause. Des chercheurs conduits par Zhijing Jin ont construit Corr2Cause, un benchmark de centaines de milliers de problèmes qui soumet à un modèle un ensemble de corrélations et lui demande quelle variable cause quelle autre. Le meilleur système testé, GPT-4, a performé à un niveau proche du hasard. Tous les modèles évalués sont restés dans ce voisinage. Le benchmark élimine les faits mémorisés et ne conserve que l’inférence — et c’est là qu’ils ont échoué.

Cet échec est structurel, il ne tient ni à la taille du modèle ni au budget d’entraînement. La hiérarchie de la causalité établie par Judea Pearl répartit toute question causale sur l’un de trois niveaux : voir, faire, imaginer. Un tableau de bord lit ce qui s’est passé — c’est le premier niveau, celui de l’association. Un acheteur qui demande quoi réassortir ou démarquer pose une question sur ce qui se passera s’il agit — c’est le deuxième niveau, celui de l’intervention. Le résultat fondateur du domaine est qu’aucun volume de données du premier niveau ne répond à une question du deuxième sans une hypothèse causale supplémentaire que les données elles-mêmes ne peuvent jamais fournir. Un modèle entraîné à prédire le mot suivant à partir de textes observationnels vit au premier niveau, et ne peut pas en gravir d’autres à force de lire davantage.

A three-rung causal ladder labeled seeing, doing, imagining, with a small figure able to reach only the bottom rung

Dans un bureau d’achat, l’erreur prend une forme familière. Une robe midi marine progresse la semaine où elle est démarquée, et le copilote désigne la démarque comme la raison du mouvement de stock. Il n’a pas vu que la coupe est tombée le premier week-end chaud de la saison, ni qu’un concurrent à deux pas avait épuisé son équivalent le plus proche. Le prix a baissé et les unités ont augmenté ensemble, alors la machine a nommé le prix — parce que la covariation est tout ce qu’elle possède. L’acheteur démarque ensuite le style suivant selon la même logique, ou réassortit la gamme soldée, et court après une hausse que la météo et une étagère vide chez le voisin ont produite.

Ce que les retailers achètent, en réalité, n’est pas de l’insight mais la grammaire de l’insight : une réponse en forme de raison, générée par un système qui n’a aucun accès aux raisons.

Les éditeurs ont déjà concédé le point, dans une documentation qu’aucun acheteur n’ouvre. La fonction Explain Data de Tableau propose en un clic une explication de l’allure de n’importe quel chiffre sur un graphique, et est livrée en standard sur la plateforme. Ses propres pages d’aide précisent que ses explications « ne sont pas des explications causales » et mettent en garde l’utilisateur contre toute hypothèse de causalité, la corrélation n’étant pas la causalité. La mise en garde se trouve dans le manuel ; la fonctionnalité se trouve dans la réunion. La distance entre ces deux endroits est exactement là où se décide le mauvais réassort.

L’objection la plus solide est que les modèles ont déjà réussi l’examen causal. Dans une étude de 2023 largement citée, Amit Sharma et ses collègues ont constaté que GPT-4 et GPT-3.5 répondaient correctement à environ 97 % des questions de cause à effet par paires — un résultat qui tient sur des jeux de données construits après leur date de coupure d’entraînement, et qui ne peut donc pas être balayé comme simple mémorisation. Si la question d’un acheteur était de celles dont la réponse est écrite quelque part dans les textes du monde, le modèle la trouverait probablement. La question d’un acheteur ne l’est jamais. « Couper la robe midi marine la semaine prochaine ferait-il monter les ventes, ou le week-end chaud l’aurait-il fait de toute façon ? » est un fait concernant le mardi prochain d’une boutique précise, absent de tout corpus. Le taux de 97 % mesure le rappel de connaissances causales qui existent déjà ; le résultat proche du hasard de Corr2Cause mesure la découverte d’une structure qui n’existe pas — et c’est dans ce second chiffre que vivent les acheteurs.

Une étude de 2025 a fait la chose honnête et a fourni aux modèles les chiffres réels derrière les étiquettes. Des chercheurs testant la découverte causale pilotée par les données ont constaté que les noms de variables seuls permettaient à un modèle de surpasser les méthodes statistiques classiques jusqu’à 0,41 point de F1 ; ajouter les données observées ne gagnait au plus que 0,11 de plus. L’ordre de ces deux chiffres résume tout : ce sont les étiquettes qui ont accompli le travail causal, et les données que contient réellement le tableau de bord ont à peine fait bouger le résultat. Les étiquettes d’un acheteur sont génériques — « prix », « unités », « SKU » —, de sorte que la partie sur laquelle le modèle s’appuie ne contient aucune réponse concernant sa boutique. Si les éditeurs continuent à vendre des réponses du deuxième niveau construites sur une mécanique du premier, le coût n’arrivera pas sous forme de message d’erreur ; il arrivera sous la forme d’une saison de démarques calées sur une météo que personne n’a mesurée, et de réassorts qui semblaient data-driven alors qu’ils ne l’étaient pas.

Le remède est peu coûteux et ancien, et il s’appelle l’expérience. Un tableau de bord ne peut pas dire à un acheteur pourquoi un modèle s’est vendu, mais il peut lui dire quoi tester — et un seul magasin témoin ou une démarque échelonnée réglera la question causale que le copilote ne fait que prétendre répondre. Si les retailers traitent le « pourquoi » de la machine comme une hypothèse à tester plutôt que comme une instruction à suivre, les mêmes outils qui les induisent en erreur deviennent la façon la moins chère de concevoir le test qui, lui, fonctionne. La technologie qui ne peut pas trouver la cause vaut tout de même la peine d’être achetée ; elle vaut simplement un cran de moins que le prix inscrit sur la facture.

Rack & Reason

L'IA peut dire aux retailers ce qui s'est vendu. Elle ne peut toujours pas leur dire pourquoi.

Articles liés