ByteDance hat Valley3 auf arXiv eingereicht. Rufus lebt in einer Pressemitteilung.

ByteDance veröffentlichte Valley3, ein omnimodales multimodales Commerce-Modell, auf arXiv mit Gewichten und Apache-2.0-Lizenz, während Amazons Rufus und Shopifys Sidekick öffentlich nur als Blogbeiträge und Konferenzvorträge existieren. Die daraus resultierende Zitationsasymmetrie ist kein technisches, sondern ein soziales Phänomen: Chinesische Commerce-KI wird gelesen und weiterentwickelt; westliche Commerce-KI wird lediglich genutzt.

ByteDance veröffentlichte Valley3, ein omnimodales multimodales Commerce-Modell, am 2. Mai auf arXiv — mit Code und Gewichten auf GitHub und HuggingFace unter der Apache-2.0-Lizenz. Amazons Rufus und Shopifys Sidekick, beide im großen Maßstab im Einsatz, existieren öffentlich als Blogbeiträge, Magazininterviews und Konferenzvorträge. Die Asymmetrie ist kein technisches, sondern ein soziales Phänomen: Eine Gruppe von Modellen wird zitiert und weiterentwickelt; die andere wird lediglich genutzt.

Valley3 ist der dritte Eintrag in einer ByteDance-Reihe, deren Linie von einem Video-Verständnismodell aus dem Jahr 2023 über das commerce- und kurzvideooptimierte Valley2 aus dem Jahr 2025 bis zu einer vierstufigen Vortrainings-Pipeline reicht, die nativ mehrsprachiges Audio ergänzt. Die Varianten mit 8 Mrd. und 32 Mrd. Parametern sind in den Modi Instruct und Think verfügbar; die Think-Varianten bieten drei steuerbare Tiefen des Chain-of-Thought-Reasonings. Das Paper bewertet die Modelle anhand von sechs hauseigenen Commerce-Aufgaben sowie Open-Source-E-Commerce-Benchmarks. Der Umfang ist selbst aufschlussreich: ByteDance, die Muttergesellschaft von TikTok und Douyin, entwickelt KI für den Livestream- und Kurzvideo-Commerce, den westliche Händler noch immer als aufkommend bezeichnen.

Was Amazon und Shopify über ihre Commerce-Modelle veröffentlicht haben, ist die PR-Version eines Research-Releases. Rufus verfügt über einen Amazon-Science-Blogbeitrag und einen IEEE-Spectrum-Artikel von VP und Distinguished Scientist Trishul Chilimbi sowie einen AWS-Beitrag über die Skalierung auf 80.000 Inferentia- und Trainium-Chips für den Prime Day. Sidekick ist durch einen Shopify-Engineering-Beitrag dokumentiert, der auf einem ICML-2025-Expo-Vortrag über produktionsreife agentische Systeme basiert, sowie durch eine Folgenotiz über das Fine-Tuning von Qwen3-32B für Shopify Flow — das Unternehmen baut problemlos auf fremden offenen Gewichten auf, nicht aber auf eigenen. Nichts davon ist zitierfähig: keine Modellgewichte, keine Trainingsdaten, kein reproduzierbares Evaluierungsframework, kein begutachtetes Paper. Diese Texte werden von Journalisten gelesen, nicht von anderen Modellentwicklern.

Der Mechanismus, durch den Forschung sich fortschreibt, ist die Zitation — und Zitation setzt voraus, dass es etwas gibt, worauf man zeigen kann. Valley3 liegt unter github.com/bytedance/Valley mit herunterladbaren Gewichten auf HuggingFace, aufgebaut auf Alibabas Qwen3-VL. Die Qwen-Familie von Alibaba, auf der Valley3 aufbaut, hielt im März 2026 über 50 % der weltweiten Open-Source-Modell-Downloads, laut Interconnects AI. Ein vietnamesisches Livestream-Startup, ein indonesisches Merchant-Analytics-Tool, eine Agentur in São Paulo, die QA für Produktvideos entwickelt: Sie alle können Valley3 forken, es auf lokalen Katalogdaten feinabstimmen und ein abgeleitetes Paper veröffentlichen, das es zitiert. Shopify steht bereits auf dieser Seite der Asymmetrie; sein eigener Engineering-Beitrag über Sidekick Flow räumt ein, dass der Produktionsagent auf Qwen3-32B feinabgestimmt ist und 68 % günstiger läuft als die geschlossene Alternative, die er ersetzte. Niemand downstream zitiert Rufus, weil es in Rufus nichts zu zitieren gibt — man kann es bei Amazon kaufen.

Das Argument für ein proprietäres Commerce-Modell ist real, und es hat einen Namen: Verteidigungsfähigkeit.

Amazons stärkstes Argument wäre, dass der Wert von Rufus untrennbar mit einem privaten Katalog und einem Verhaltensgraphen verbunden ist, den eine Veröffentlichung des Modells gefährden würde. Das Gegenargument gilt, wenn der Katalog der Burggraben ist. Das ist er nicht. Der Burggraben ist die Kundenbeziehung und der operative Stack — Fulfillment, Retouren, Zahlungen, Empfehlungen —, die durch ein veröffentlichtes Modell nicht geschwächt werden. Der Preis der Intransparenz: Amazons Forschungsteam kann nicht per Zitation rekrutieren, kann nicht offen mit Qwen-Omni oder Valley3 benchmarken und entgeht dem kostenlosen Engineering-Review, das eintrifft, wenn ein arXiv-Preprint drei Runden öffentlicher Community-Kritik durchläuft.

Hält die Publikationslücke noch ein weiteres Jahr an, wird die wissenschaftliche Literatur zu commerce-spezifischen multimodalen Modellen standardmäßig chinesisch sein. Das ist keine feindliche Einschätzung; es ist das, was passiert, wenn eine Seite PDFs in ein öffentliches Archiv einreicht und die andere sie ans Marketing-Team weiterleitet. Externe Forscher — darunter Doktoranden, die an agentischem Commerce, Livestream-Verständnis und Produktvideo-QA arbeiten — werden Valley3 weiterhin zitieren, weil es das ist, was zum Zitieren da ist. Damit verankert sich das Feld an chinesischen Benchmarks und chinesischen Definitionen dessen, was im Retail-KI als schwieriges Problem gilt. Amazon produziert Innovation in großem Umfang. Was anderswo akkumuliert, ist Einfluss: jener Einfluss, der bestimmt, welche Probleme die nächste Generation von Forschern als lösungswürdig betrachtet.