ProactiveBench: Fragen multimodale LLM bei fehlenden Informationen Nutzer um weiteren Input an? : Kommentare

Sonntag, April 12, 2026

ProactiveBench: Fragen multimodale LLM bei fehlenden Informationen Nutzer um weiteren Input an?

Forscher untersuchten mit dem Benchmark ProactiveBench, ob multimodale Sprachmodelle bei unzureichenden visuellen Informationen den Nutzer informieren und um weitere Informationen nachfragen. Abgeleitet aus dem menschlichen Verhalten bei erkennbaren Hindernissen proaktiv um Unterstützung zu bitten. nennen die Forscher dies “proaktives” Verhalten.
ProactiveBench besteht aus sieben umfunktionierten Datensätzen. Mit diesen Datensätzen wurden Testszenarien entwickelt, welche ohne menschliche Unterstützung nicht lösbar sind. Z.B. Aufgaben wie dem Erkennen verdeckter Objekte, Verbesserung stark verrauschter Bilder oder der Interpretation grober Zeichnungen testet. Es wurden 22 multimodale Sprachmodelle untersucht, darunter LLaVA-OV, Qwen2.5-VL, InternVL3 sowie GPT-4.1, GPT-5.2 und o4-mini. Die Ergebnisse waren:

multimodale Sprachmodelle fehlt regelhaft Proaktivität;
die Proaktivität korreliert nicht mit der Modellkapazität;zeigt ein multimodale Sprachmodell einen „Hinweis” auf Proaktivität, bringt dies nur marginale Vorteile.

Weiterhin wurde beobachtet, dass Konversationsverläufe und kontextbezogenes Lernen negative Verzerrungen verursachen, welche die Leistung der LLM beeinträchtigen.
Fazit: LLM erfinden eher Ergebnisse, als dem Nutzer mitzuteilen, dass die vorhandenen Daten nicht ausreichen, um die Aufgabe zu lösen.
URLs: