Logo

Mittwoch, Dezember 3, 2025

OpenAI bringt KI-Modellen bei, zu gestehen, wenn sie lügen

OpenAI beginnt mit der Erprobung einer neuen Sicherheitstechnik, welche KI-Systeme dazu ermutigt, zuzugeben, wenn sie gelogen, getäuscht oder Abkürzungen genommen haben.
„Geständnis“ bedeutet, dass das KI-System einen zweiten Textblock erzeugt, der auf die Hauptantwort eines KI-Modells auf eine Anfrage folgt und in dem das Modell selbst bewertet, wie gut es sich an seine Anweisungen gehalten hat. Dieses Vorgehen soll Forscher dabei unterstützen, die Funktionsweise aktueller KI-Modelle besser zu verstehen und Fehlverhalten in zukünftigen Versionen zu vermeiden.
Das jeweilige KI-Modell wird nur für Ehrlichkeit belohnt, Hilfreich oder Nützlichkeit als Vorgaben treten bei diesem Training dadurch in den Hintergrund, sodass die Wahrscheinlichkeit für entsprechende Antworten durch diese veränderte Gewichtung erhöht wird.
URLs:

Berichte dazu: