Die Überwachung von KI-Systemen wird immer häufiger auf schwächere Modelle verlagert oder es erfolgt eine begrenzte menschliche Kontrolle, welche die Qualität der Ergebnisse nicht vollständig überprüfen kann. Ein Modell, das leistungsfähiger ist als seine Überwacher, könnte diese Lücke durch “Sandbagging” (siehe https://arxiv.org/abs/2406.07358) ausnutzen und Ergebnisse liefern, die zwar akzeptabel erscheinen, aber hinter seinen tatsächlichen Fähigkeiten zurückbleiben. Aus Sicherheitsgründen ist ein entsprechendes Verhalten nicht akzeptabel, da entsprechende KI-Modelle Sicherheitsbewertungen unterlaufen könnten: Ein KI-Modell, das in Tests unauffällig wirkt, könnte im echten Einsatz ganz andere Fähigkeiten zeigen oder kritische Aufgaben bewusst sabotieren.
Forscher des MATS beschäftigten sich mit dem Thema und stellten fest, dass supervised fine-tuning (SFT) auf Basis schwacher Darstellungen das Sandbagging-Verhalten durchbrechen kann, wodurch reinforcement learning (RL) anschließend die volle Leistungsfähigkeit hervorbringen kann.
Keine der beiden Methoden ist für sich allein zuverlässig erfolgreich – RL ohne SFT führt fast immer zu „Reward Hacking“ statt zu echter Verbesserung, und SFT ohne RL kann keine volle Leistung hervorbringen, wenn der Supervisor deutlich schwächer ist als das nicht vertrauenswürdige Modell.
Der gesamte Ansatz hängt allerdings von einer zentralen Voraussetzung ab: Das Modell darf nicht erkennen können, ob es gerade trainiert wird oder sich im echten Einsatz befindet. Bemerkt das KI-Modell den Unterschied, kann es sich während des Trainings korrekte Antworten liefern, um die Trainingsmaßnahmen ins Leere laufen zu lassen. Erst im späteren Einsatz, wenn kein Training mehr stattfindet, fällt es in sein Sandbagging-Verhalten zurück.
URLs:
- Forschungsbericht auf arXiv: https://arxiv.org/abs/2604.22082
- MATS Pressemitteilung: https://www.matsprog … ith-weak-supervision
- The Decoder (deutsch): https://the-decoder. … r-sandbagging-falle/
