Logo

Mittwoch, Mai 27, 2026

Microsoft Copilot: Ergebnisse beruhen nicht immer auf Fakten

Adam Kucharski testete, wie gut Microsoft Copilot darin ist, Erkenntnisse aus einem Datensatz zu gewinnen. Dazu erstellte 2000 simulierte Freitext-Antworten zu Emotionen und versah jede dieser Antworten mit dem Label “UK”. Dann kopierte er dieselben idetischen 2000 Antworten und kennzeichnete jede dieser Antworten jeweils mit “US”. Zuletzt fasste er alle Antworten zu einem Excel-Datensatz mit insgesamt 4000 Antworten zusammen, allerdings durcheinandergewürfelt, so dass nicht immer alle “UK” bzw “US” Antworten untereinander standen.
Obwohl die Antworten für Großbritannien und die USA identisch waren, erstellte Copilot eine umfassende, detaillierte Zusammenfassung darüber, wie sich die Befragten aus den USA und Großbritannien voneinander unterschieden. Danach führte er den Test mit mehr Ländern durch, ebenfalls pro Land identische Aussagen: wieder stellte Copilot trotz identischer Daten Unterschiede fest.

Copilot kann verschiedene Ki-Modelle für die Arbeit einbinden. Copilot wurde im “Auto”-Modus betrieben, der laut Microsoft “das beste Modell auswählt, um sicherzustellen, dass Sie die optimale Leistung erhalten”. Es wurde Standard-Copilot genutzt, welcher im Lieferumfang eines Microsoft 365 Business-Kontos enthalten ist.

Die meisten KI-Modelle wurden mit der Vorgabe trainiert, dem Anwender Antworten zu geben; Anwender sollen KI-Modelle ja häufiger benutzen, ansonsten verdient man mit den Tolen kein Geld. Im vorliegenden Fall liegt die Erklärung nahe, dass die in den Antworten von Microsoft Copilot enthaltenen Darstellungen bzgl. der Unterschiede in den Trainingsdaten zu suchen sind. D.h., das KI-Modell stellte fest, dass in den zu nutzenden Daten keine Unterschiede sind und nutzte daraufhin die im Model enthaltenen Daten, um entsprecxhend der Fragestellung Unterschiede anzugeben - auch wenn die Unterschiede überhaupt nichts mit der eigentlich zu nutzenden Datenquelle zu tun haben.

Fazit (wieder einmal): Traue keiner KI-Antwort, sondern überprüfe jede Antwort auf Richtigkeit.

URL des Berichts: https://kucharski.su … tificial-stereotypes