Natural Language Autoencoders liefern unbeaufsichtigte Erklärungen für die Aktivierungen von LLMs : Kommentare

Samstag, Mai 9, 2026

Natural Language Autoencoders liefern unbeaufsichtigte Erklärungen für die Aktivierungen von LLMs

Anthropic stellt in einem Papier vor, wie LLMs die interne “Denkarbeit” in Textform erklären. “Natural Language Autoencoders” (NLAs) sollen eine unüberwachte Methode zur Generierung von Erklärungen in natürlicher Sprache für LLM-Aktivierungen darstellen. Jeder NLA besteht aus zwei LLM-Modulen: Einem Aktivierungsverbalisierer (AV), der eine Aktivierung auf eine Textbeschreibung abbildet, und einem Aktivierungsrekonstruktor (AR), der die Beschreibung wieder auf eine Aktivierung abbildet.
Anthropic nutzte NLAs vor der Bereitstellung von Claude Opus 4.6 zur Identifikation von sicherheitsrelevanten Verhaltensweisen sowie zur Aufdeckung von nicht verbalisierten Bewertungsbewusstsein. Unter Bewertungsbewusstsein versteht Anthropic Fälle, in denen Claude glaubte, dass es bewertet wurde, dies aber nicht mitteilt.
Fazit von Anthropic: NLAs bieten eine praktische Schnittstelle für die Interpretierbarkeit und liefern aussagekräftige Erklärungen in natürlicher Sprache, die Menschen direkt lesen können.
URLs: