Logo

Mittwoch, Juni 17, 2026

Microsoft Studie: LLMs verfälschen Dokumente, wenn man Aufgaben auslagert

Forscher von Microsoft stellten DELEGATE-52 vor, ein Tool, mit welchem die Eignung von KI-Systemen in ausgelagerten Arbeitsabläufen untersucht werden kann. DELEGATE-52 simuliert dabei umfangreiche delegierte Arbeitsabläufe, die eine tiefgreifende Dokumentbearbeitung in 52 Fachbereichen erfordern, darunter Programmierung, kristallographische Analyse und musiktheoretische Notation.
Im Experiment mit 19 LLMs zeigten die Forscher, dass aktuelle KI-Modelle Dokumente während der Verarbeitung beeinträchtigen: Selbst Spitzenmodelle (Gemini 3.1 Pro, Claude 4.6 Opus, GPT 5.4) verfälschen am Ende langer Arbeitsabläufe durchschnittlich 25 % des Dokumentinhalts, während andere Modelle noch gravierendere Fehler aufweisen.
Weitere Experimente zeigen, dass das Ausmaß der Qualitätsminderung durch die Dokumentgröße, die Dauer der Interaktion oder das Vorhandensein von ablenkenden Dateien noch verstärkt wird. Dabei verbessert der Einsatz agentischer Werkzeuge die Leistung bei DELEGATE-52 nicht.
URLs:

Presseberichte: