Anthropic stellt in einem Papier vor, wie LLMs die interne “Denkarbeit” in Textform erklären. “Natural Language Autoencoders” (NLAs) sollen eine unüberwachte Methode zur Generierung von Erklärungen in natürlicher Sprache für LLM-Aktivierungen darstellen. Jeder NLA besteht aus zwei LLM-Modulen: Einem Aktivierungsverbalisierer (AV), der eine Aktivierung auf eine Textbeschreibung abbildet, und einem Aktivierungsrekonstruktor (AR), der die Beschreibung wieder auf eine Aktivierung abbildet.
Anthropic nutzte NLAs vor der Bereitstellung von Claude Opus 4.6 zur Identifikation von sicherheitsrelevanten Verhaltensweisen sowie zur Aufdeckung von nicht verbalisierten Bewertungsbewusstsein. Unter Bewertungsbewusstsein versteht Anthropic Fälle, in denen Claude glaubte, dass es bewertet wurde, dies aber nicht mitteilt.
Fazit von Anthropic: NLAs bieten eine praktische Schnittstelle für die Interpretierbarkeit und liefern aussagekräftige Erklärungen in natürlicher Sprache, die Menschen direkt lesen können.
URLs:
- Anthropic Pressemitteilung: https://www.anthropi … anguage-autoencoders
- Anthropic Paper: https://transformer- … /2026/nla/index.html
- Code auf github: https://github.com/k … anguage_autoencoders
Presseberichte:
- Quantum Zeitgeist: https://quantumzeitg … explain-activations/
- The Decoder: https://the-decoder. … wn-reasoning-traces/
- The Decoder (deutsch): https://the-decoder. … igenen-denkprozesse/
- All-AI (deutsch): https://www.all-ai.d … c-ki-modelle-lesen-1
- Diskussion bei reddit: https://www.reddit.c … ers_turning_claudes/
- Diskussion auf Hacker News: https://news.ycombin … com/item?id=48052537
- Podcast bei Spotify: https://open.spotify … sWdYAtvPe3pM4w0UIsXX
