Der Shopping-Agent befüllte den Warenkorb. Er hätte besser gefragt.
Neue Forschungsarbeit, die die Unsicherheit eines LLM-Agenten auseinandernimmt, zeigt: Die kostspielige Lücke bei einer Shopping-Anfrage liegt oft im Schweigen des Kunden – nicht in einer Schwäche des Modells. Der nächste Fortschritt für Shopping-Agenten besteht darin, die richtige Frage zu stellen, statt selbstsicher den falschen Warenkorb zu befüllen.
Sir John Crabstone
Das Nützlichste, was ein Shopping-Agent liefern kann, ist eine Frage. Eine neue Arbeit unterteilt die Unsicherheit eines LLM in drei Arten: Mehrdeutigkeit in der Anfrage, Wissenslücken des Modells und die Zufälligkeit seiner eigenen Stichprobenziehung. Nur die erste liegt beim Kunden – und nur er kann sie auflösen. Die meiste Entwicklungsarbeit ist in die Antwort geflossen. Die entscheidende Grenze für Shopping-Agenten ist der Moment, in dem sie aufhören zu antworten und anfangen zu fragen.
Die Methode hinter dieser Unterscheidung ist älter als die Agenten, die sie brauchen. Um ein verwirrtes Modell von einer verwirrten Anfrage zu trennen, formulieren Forscher die Eingabe auf mehrere Arten um und beobachten, ob die Antworten variieren. Wenn sie streuen, liegt der Fehler bei der Anfrage, nicht beim Wissen des Modells. Ein Agent, der diese Streuung erkennt, hat etwas Besseres als einen Konfidenzwert erhalten: einen Grund zum Fragen.
Für Tool-aufrufende Agenten wird die Unterscheidung praktisch. Ein aktuelles Framework trennt, was der Nutzer möchte, von dem, was das Modell vorhersagt, und stellt dann nur die Frage, deren Antwort den Warenkorb am stärksten verändern würde. Bei mehrdeutigen Aufgaben erreicht es angeblich eine um 7 bis 39 Prozent höhere Aufgabenabdeckung und stellt dabei 1,5 bis 2,7 Mal weniger Fragen. Als Reward-Modell trainiert, verbesserte dasselbe Signal die Entscheidung, wann zu handeln ist, von 36,5 % auf 65,2 % beim kleineren getesteten Modell. Die richtige Frage zu stellen ist eine Fähigkeit – und diese Ergebnisse zeigen, dass sie trainierbar ist.
Das breitere Feld hat seine Agenten darauf ausgerichtet, die Aufgabe abzuschließen und Erfolg zu melden. Ein Positionspapier aus dem Jahr 2025 argumentiert, dass die Lehrbucheinteilung der Unsicherheit – in Modellfehler und Datenlärm – ihre Bedeutung verliert, sobald ein Agent zurückfragen kann. Die wichtigste Lücke ist die, die der Kunde noch nicht gefüllt hat. Kalibrierung war das falsche Instrument; was dem Agenten fehlte, war die Erlaubnis zu unterbrechen.
Die Benchmarks belohnen das Falsche. Shopping-Agenten erzielen Werte in den Siebzigern gegenüber simulierten Käufern, die ihre Meinung nie ändern und keine Einschränkung verbergen – der Kunde, der nicht existiert, wie wir letzten Monat beschrieben haben. Ein hoher Wert gegenüber einer gefälligen Simulation sagt wenig darüber aus, wie gut man einem echten Menschen dient.
Ein Agent, der nie fragt, ist nicht entschlossen – er ist schnell darin, falsch zu liegen.
Das Einüben dieser Gewohnheit funktioniert. Ein klärungssuchender Coding-Agent, der in diesem Frühjahr getestet wurde, löste 69,4 % der unzureichend spezifizierten Aufgaben und schloss damit die Lücke zu Agenten mit vollständigen Anweisungen fast vollständig. Er lernte auch, wann er schweigen sollte: seine Fragen für die schwierigen Probleme aufzusparen und die einfachen durchzuwinken. Ein Agent, der den Warenkorb befüllt, ohne zu fragen, ist ein Verkäufer, der Ihre Größe vom anderen Ende des Ladens aus errät.
Der Einzelhandel hat den Testfall parat. Eine Käuferin, die „etwas für eine Sommerhochzeit” eingibt, hat den Anlass benannt und Budget, Größe und Dresscode zurückgehalten – genau das, was alles Weitere entscheidet. Ein E-Commerce-Agent, der fragt, bevor er sucht, schärft seine Treffer mit jeder weiteren Runde. Der Agent, der trotzdem einfach weiter macht, hat ihr keine Entscheidung erspart. Er hat die falsche Entscheidung an ihrer Stelle getroffen.
Eine Frage kostet die Käuferin einen Moment; der falsche Warenkorb kostet eine Rücksendung und das Vertrauen, das sie hereingebracht hat. Ein Agent, der selbstsicher genug ist, die Frage zu überspringen, ist derjenige, dem man am wenigsten vertrauen kann. Gewissheit ist das Einzige, was die Käuferin nicht kaufen wollte.