LLM erzeugen auf Bilddaten beruhende Diagnosen ohne Bilder je "gesehen" zu haben : Kommentare

Samstag, März 28, 2026

LLM erzeugen auf Bilddaten beruhende Diagnosen ohne Bilder je “gesehen” zu haben

Multimodale KI-Modelle wie GPT-5 oder Gemini 3 Pro erzielen auf Bild-Benchmarks hohe Ergebnisse und werden damit als visuell kompetent vermarktet. Aber die Modelle erzielen gleich gute Ergebnisse , wenn man die Bilder komplett weglässt: die KI-Modelle beschreiben visuelle Details der nicht vorhandenen Bilder und liefern plausible Begründungen für die nicht vorhandenen Bilddetails.
Hintergrund der Aussage:
Forscher der Stanford-Universität berichten über drei gewonnene Erkenntnisse bei Nutzung von multimodale KI-Systemen wie GPT-5, Gemini 3 Pro und Claude Opus 4.5, welche Bildbeschreibungen und medizinische Diagnosen erzeugen:

Frontier-Modelle generieren detaillierte Bildbeschreibungen und ausführliche Schlussfolgerungsketten – einschließlich pathologisch geprägter klinischer Befunde – für Bilder, die ihnen nie vorgelegt wurden; die Forscher bezeichnen dieses Phänomen als “Mirage Reasoning”.
Entsprechende KI-Modelle erzielen auch ohne jegliche Bildeingabe auffallend hohe Punktzahlen bei allgemeinen und medizinischen multimodalen Benchmarks, was Nutzen und ihr Design der Benchmarks in Frage stellt.
Die Leistung der KI-Modelle sank deutlich, wenn Modelle ausdrücklich angewiesen wurden, Antworten ohne Zugang zu Bildern zu erraten, anstatt implizit dazu aufgefordert zu werden, anzunehmen, dass Bilder vorhanden seien.

URLs: