Multimodale KI-Modelle wie GPT-5 oder Gemini 3 Pro erzielen auf Bild-Benchmarks hohe Ergebnisse und werden damit als visuell kompetent vermarktet. Aber die Modelle erzielen gleich gute Ergebnisse , wenn man die Bilder komplett weglässt: die KI-Modelle beschreiben visuelle Details der nicht vorhandenen Bilder und liefern plausible Begründungen für die nicht vorhandenen Bilddetails.
Hintergrund der Aussage:
Forscher der Stanford-Universität berichten über drei gewonnene Erkenntnisse bei Nutzung von multimodale KI-Systemen wie GPT-5, Gemini 3 Pro und Claude Opus 4.5, welche Bildbeschreibungen und medizinische Diagnosen erzeugen:
- Frontier-Modelle generieren detaillierte Bildbeschreibungen und ausführliche Schlussfolgerungsketten – einschließlich pathologisch geprägter klinischer Befunde – für Bilder, die ihnen nie vorgelegt wurden; die Forscher bezeichnen dieses Phänomen als “Mirage Reasoning”.
- Entsprechende KI-Modelle erzielen auch ohne jegliche Bildeingabe auffallend hohe Punktzahlen bei allgemeinen und medizinischen multimodalen Benchmarks, was Nutzen und ihr Design der Benchmarks in Frage stellt.
- Die Leistung der KI-Modelle sank deutlich, wenn Modelle ausdrücklich angewiesen wurden, Antworten ohne Zugang zu Bildern zu erraten, anstatt implizit dazu aufgefordert zu werden, anzunehmen, dass Bilder vorhanden seien.
URLs:
- Forschungsbericht bei arXiv: https://arxiv.org/abs/2603.21687v2
- substack: https://garymarcus.s … visual-understanding
- The Decoder (deutsch): https://the-decoder. … die-nie-existierten/
