Le Défaut Two-Tower A Perdu Meta Et Shopee Cette Semaine

SilverTorch de Meta et UniRec de Shopee, tous deux révisés cette semaine, retirent l'architecture de récupération two-tower comme couche par défaut sous le e-commerce de mode. La nouvelle couche est générative, native GPU, et arrive avec des chiffres de débit, de coût et de GMV qui closent les décisions d'achat.

Deux articles publiés cette semaine ont mis fin à l’architecture de recommandation par défaut qui propulse le e-commerce de mode. SilverTorch de Meta, révisé le 30 avril, et UniRec de Shopee, révisé le même jour, remplacent le pipeline de récupération two-tower — standard à grande échelle depuis 2019 — par une infrastructure générative et native GPU. Ces travaux redéfinissent simultanément trois paramètres : la latence, le coût d’infrastructure, et ce que le mot « personnalisation » signifie au niveau du catalogue.

L’architecture two-tower est celle que la quasi-totalité des sites de mode de taille intermédiaire à grande fait tourner en coulisses. Elle encode utilisateurs et articles séparément, calcule une similarité cosinus, et sert les correspondances via des recherches de voisins les plus proches approximatifs (ANN) sur des flottes de CPU. Allegro a publié une étude de cas sur deux ans en juillet : les mêmes tours, trois tâches de récupération, des gains basés sur la rentabilité sur desktop et mobile. L’architecture est efficace et peu coûteuse à échelle modérée, ce qui explique pourquoi elle se trouve depuis une demi-décennie sous eBay, la pile de récupération documentée de Google, et la plupart des catalogues de la galaxie Shopify.

SilverTorch abandonne entièrement la plomberie CPU de cette architecture. L’article de Meta, signé par 31 auteurs, intègre l’indexation ANN et le filtrage de fonctionnalités directement dans le modèle, servi sur GPU en temps réel unifié : un index Bloom implémenté comme noyau GPU, un noyau ANN Int8 fusionné, une couche de scoring OverArch, et un Value Model qui agrège les objectifs de récupération multi-tâches. L’article annonce un débit 23,7 fois supérieur à la ligne de base CPU. Le chiffre qui emporte la décision d’achat en découle : une efficacité-coût 13,35 fois supérieure tout en améliorant la précision — la métrique sur laquelle les surfaces de recommandation de Meta sont désormais optimisées. Le système sert déjà des centaines de modèles dans des applications variées.

UniRec est la même rupture côté ranking. L’article de Shopee fusionne le pipeline canonique Récupération → Pré-ranking → Ranking → Reranking en un seul décodeur autorégressif sur des Semantic IDs, préfixé de tokens de catégorie, de vendeur et de marque (les auteurs appellent cela le « Chain-of-Attribute »). Les tests A/B en ligne rapportent des gains sur plusieurs métriques : +4,76 % sur les commandes, +5,60 % sur le GMV. Ce chiffre de GMV est du genre à clore les appels d’offres — exceptionnellement élevé pour une expérience au niveau du ranking.

Two-tower stack vs unified generative decoder

Ensemble, ces articles retirent le two-tower comme architecture par défaut pour tout catalogue suffisamment large pour que la personnalisation influe sur la marge.

L’implication pour la mode est une décision d’achat habillée en article de recherche. Un décodeur génératif unifié peut assembler des tenues à la demande ; la pile multi-étapes héritée ne le peut pas, c’est pourquoi les sites de mode servent aujourd’hui des rayons précalculés qu’ils appellent « personnalisés ». L’argument de coût de SilverTorch ne tient que parce que le capex des flottes GPU a suffisamment baissé pour que la balance penche désormais du côté GPU. Cette condition a évolué au cours des dix-huit derniers mois.

Il faut aussi présenter le meilleur argument en faveur du two-tower. L’article FIT de septembre a étendu l’architecture two-tower pour le pré-ranking en ajoutant des interactions de fonctionnalités apprenables — une amélioration d’efficacité qui laisse intactes les limites fondamentales de l’architecture face aux modèles génératifs. Cet argument s’applique à échelle modérée, là où l’économie GPU penche encore dans le mauvais sens. Un retailer de mode intermédiaire gérant en interne une pile two-tower sur une base de données vectorielle ne peut pas opérer une flotte GPU de recommandation, et les éditeurs qui servent ce marché (Pinecone, Qdrant, Weaviate) ont été construits autour des primitives ANN que SilverTorch intègre désormais dans le modèle. Si ces éditeurs ne livrent pas des substrats compatibles avec le génératif d’ici douze à dix-huit mois, le statu quo se maintient sous la ligne mid-market. Les précédents articles d’infrastructure de Meta ont semé l’ère ANN — FAISS en est l’exemple canonique — et le même schéma est le pari le plus plausible pour la suite. La seule question ouverte pour les acheteurs est de savoir quel logo finira sur la boîte.

Trois conséquences découlent de cette trajectoire si elle se confirme. Les budgets de latence se compriment au point où la composition de tenues à la volée devient une question produit plutôt qu’une question d’ingénierie. Passer d’un rappel peu coûteux suivi d’un ranking onéreux à un seul décodeur qui fait les deux change aussi l’économie du catalogue — les compromis autorégressifs s’appliquent : moins interprétable, plus difficile à contraindre, et lié au GPU. Et « personnalisation » cesse de signifier « les articles les plus proches de votre embedding » pour signifier « les articles qu’un modèle génératif compose pour vous » — une affirmation épistémique différente, et une surface de responsabilité différente pour tout retailer signant un contrat fournisseur cette année.

La pile two-tower ne va pas disparaître. Elle sera reléguée aux catalogues où son coût d’exploitation bat encore la nouvelle alternative. Pour tous ceux qui se situent au-dessus de cette ligne, le défaut a changé, et le prix du statu quo se paie en latence, en GMV, et dans le choix précis des mots qu’un CTO emploie pour décrire son infrastructure à un conseil d’administration.