ByteDance a déposé Valley3 sur arXiv. Rufus vit dans un communiqué de presse.

ByteDance a publié Valley3, un modèle de commerce omni-multimodal, sur arXiv avec les poids et une licence Apache 2.0, tandis qu'Amazon Rufus et Shopify Sidekick n'existent publiquement que sous forme de billets de blog et de conférences. L'asymétrie de citation qui s'ensuit n'est pas technique mais sociale : l'IA de commerce chinoise est lue et réutilisée ; l'IA de commerce occidentale, elle, est simplement utilisée.

ByteDance a mis en ligne Valley3, un modèle de commerce omni-multimodal, sur arXiv le 2 mai, avec le code et les poids disponibles sur GitHub et HuggingFace sous licence Apache 2.0. Rufus d’Amazon et Sidekick de Shopify, tous deux déployés à grande échelle, n’existent quant à eux dans l’espace public que sous forme de billets de blog, d’interviews et de conférences. L’asymétrie n’est pas d’ordre technique mais social : un ensemble de modèles sera cité et réutilisé comme base de travail ; l’autre ne sera que consommé.

Valley3 est le troisième volet d’une série ByteDance dont la lignée remonte à un modèle de compréhension vidéo en 2023, passe par Valley2 en 2025 — orienté commerce et vidéo courte — et aboutit à un pipeline de pré-entraînement en quatre étapes intégrant nativement l’audio multilingue. Les variantes 8B et 32B se déclinent en modes Instruct et Think, les variantes Think exposant trois niveaux de raisonnement par chaîne de pensée ajustables. Le papier évalue les modèles sur six tâches de commerce maison et des benchmarks e-commerce open source. La portée du projet est en elle-même révélatrice : ByteDance, maison mère de TikTok et Douyin, conçoit de l’IA pour le commerce en livestream et par vidéo courte que les retailers occidentaux qualifient encore de marché émergent.

Ce qu’Amazon et Shopify ont publié sur leurs modèles de commerce ressemble davantage à une version communication d’entreprise d’une publication de recherche qu’à une véritable mise à disposition. Rufus dispose d’un billet sur Amazon Science, d’un article dans IEEE Spectrum signé par Trishul Chilimbi, vice-président et scientifique émérite, ainsi que d’un article AWS décrivant le déploiement sur 80 000 puces Inferentia et Trainium lors du Prime Day. Sidekick est documenté à travers un billet de Shopify Engineering issu d’une intervention à l’expo ICML 2025 sur les systèmes agentiques en production, complété d’une note de suivi sur le fine-tuning de Qwen3-32B pour Shopify Flow — l’entreprise se montre à l’aise pour s’appuyer sur les poids ouverts des autres, mais pas les siens. Aucun de ces documents n’est un artefact citable : pas de poids de modèle, pas de données d’entraînement, pas de cadre d’évaluation reproductible, pas d’article revu par des pairs. Ils sont lus par des journalistes, pas par d’autres constructeurs de modèles.

Le mécanisme par lequel la recherche se cumule, c’est la citation, et la citation exige quelque chose vers quoi pointer. Valley3 est hébergé sur github.com/bytedance/Valley avec des poids téléchargeables sur HuggingFace, construit sur Qwen3-VL d’Alibaba. La famille Qwen d’Alibaba, que Valley3 prolonge, a capturé plus de 50 % des téléchargements mondiaux de modèles open source à fin mars 2026, selon Interconnects AI. Une startup vietnamienne de livestream, un outil d’analytics pour marchands indonésiens, une agence de São Paulo spécialisée dans le contrôle qualité de vidéos produit : tous peuvent forker Valley3, le fine-tuner sur leurs données de catalogue locales et publier un papier dérivé qui le cite. Shopify vit déjà de ce côté de l’asymétrie ; son propre billet d’ingénierie sur Sidekick Flow reconnaît que l’agent de production est fine-tuné depuis Qwen3-32B et tourne 68 % moins cher que l’alternative fermée qu’il a remplacée. Personne en aval ne cite Rufus parce qu’il n’y a rien dans Rufus à citer — on peut seulement payer Amazon pour y accéder.

L’argument en faveur du maintien d’un modèle de commerce propriétaire est réel, et il a un nom : la défendabilité.

Le raisonnement le plus solide d’Amazon serait que la valeur de Rufus est indissociable d’un catalogue privé et d’un graphe comportemental que la publication du modèle mettrait en danger. L’argument tient si le catalogue est la vraie barrière. Ce n’est pas le cas. La barrière, c’est la relation client et la chaîne opérationnelle — logistique, retours, paiements, recommandations — qu’aucun modèle publié ne vient éroder. Le prix de l’opacité est qu’Amazon Research ne peut pas recruter par citation, ne peut pas se comparer ouvertement à Qwen-Omni ou Valley3, et ne bénéficie pas de la revue d’ingénierie gratuite que génère inévitablement un preprint arXiv livré à la critique publique pendant quelques semaines.

Si cet écart de publication se maintient encore un an, la littérature académique sur les modèles multimodaux spécifiques au commerce sera chinoise par défaut. Ce n’est pas une lecture hostile ; c’est simplement ce qui arrive quand un camp dépose des PDFs dans une archive publique et que l’autre les confie à l’équipe marketing. Des chercheurs extérieurs — notamment les doctorants qui travaillent sur le commerce agentique, la compréhension du livestream et le contrôle qualité vidéo produit — continueront à citer Valley3 parce que c’est ce qui existe pour être cité, ancrant le champ sur des benchmarks chinois et des définitions chinoises de ce qui constitue un problème difficile en IA pour le retail. Amazon produit de l’innovation en quantité. Ce qui s’accumule ailleurs, c’est l’influence : celle qui façonne les problèmes que la prochaine génération de chercheurs jugera dignes d’être travaillés.