Dienstag, Mai 12, 2026
Die Überwachung von KI-Systemen wird immer häufiger auf schwächere Modelle verlagert oder es erfolgt eine begrenzte menschliche Kontrolle, welche die Qualität der Ergebnisse nicht vollständig überprüfen kann. Ein Modell, das leistungsfähiger ist als seine Überwacher, könnte diese Lücke durch “Sandbagging” (siehe https://arxiv.org/abs/2406.07358) ausnutzen und Ergebnisse liefern, die zwar akzeptabel erscheinen, aber hinter seinen tatsächlichen Fähigkeiten zurückbleiben. Aus Sicherheitsgründen ist ein entsprechendes Verhalten nicht akzeptabel, da entsprechende KI-Modelle Sicherheitsbewertungen unterlaufen könnten: Ein KI-Modell, das in Tests unauffällig wirkt, könnte im echten Einsatz ganz andere Fähigkeiten zeigen oder kritische Aufgaben bewusst sabotieren.
Forscher des MATS beschäftigten sich mit dem Thema und stellten fest, dass supervised fine-tuning (SFT) auf Basis schwacher Darstellungen das Sandbagging-Verhalten durchbrechen kann, wodurch reinforcement learning (RL) anschließend die volle Leistungsfähigkeit hervorbringen kann.
Keine der beiden Methoden ist für sich allein zuverlässig erfolgreich – RL ohne SFT führt fast immer zu „Reward Hacking“ statt zu echter Verbesserung, und SFT ohne RL kann keine volle Leistung hervorbringen, wenn der Supervisor deutlich schwächer ist als das nicht vertrauenswürdige Modell.
Der gesamte Ansatz hängt allerdings von einer zentralen Voraussetzung ab: Das Modell darf nicht erkennen können, ob es gerade trainiert wird oder sich im echten Einsatz befindet. Bemerkt das KI-Modell den Unterschied, kann es sich während des Trainings korrekte Antworten liefern, um die Trainingsmaßnahmen ins Leere laufen zu lassen. Erst im späteren Einsatz, wenn kein Training mehr stattfindet, fällt es in sein Sandbagging-Verhalten zurück.
URLs:
Samstag, Mai 9, 2026
Anthropic stellt in einem Papier vor, wie LLMs die interne “Denkarbeit” in Textform erklären. “Natural Language Autoencoders” (NLAs) sollen eine unüberwachte Methode zur Generierung von Erklärungen in natürlicher Sprache für LLM-Aktivierungen darstellen. Jeder NLA besteht aus zwei LLM-Modulen: Einem Aktivierungsverbalisierer (AV), der eine Aktivierung auf eine Textbeschreibung abbildet, und einem Aktivierungsrekonstruktor (AR), der die Beschreibung wieder auf eine Aktivierung abbildet.
Anthropic nutzte NLAs vor der Bereitstellung von Claude Opus 4.6 zur Identifikation von sicherheitsrelevanten Verhaltensweisen sowie zur Aufdeckung von nicht verbalisierten Bewertungsbewusstsein. Unter Bewertungsbewusstsein versteht Anthropic Fälle, in denen Claude glaubte, dass es bewertet wurde, dies aber nicht mitteilt.
Fazit von Anthropic: NLAs bieten eine praktische Schnittstelle für die Interpretierbarkeit und liefern aussagekräftige Erklärungen in natürlicher Sprache, die Menschen direkt lesen können.
URLs:
Presseberichte:
Freitag, April 24, 2026
Forscher der ETH Zürich untersuchten, wer gut Vibe-Coding nutzen kann: Menschen, welche über gute Informatik- und gute Sprachkenntnisse verfügen, erledigen Aufgaben mit deutlich besseren Ergebnissen. Für mich erstaunlich: Menschen, die im Alltag oft KI einsetzen, schneiden wiederum deutlich schlechter ab. Die Forscher vermuten, dass ein häufiger LLM-Einsatz die eigene sprachliche Ausdrucksfähigkeit beeinflußt.
Die Studie wurde im April auf der CHI 2026 (https://chi2026.acm.org/) vorgestellt, Paper ist im Open Access unter https://dl.acm.org/ … 1145/3772318.3791666 abrufbar
Freitag, April 10, 2026
Aktuelle Arbeiten berichten von einer starken Leistungsfähigkeit von Multi-Agent-LLM-Systemen, doch werden diese Gewinne oft durch einen erhöhten Rechenaufwand während der Testphase überdeckt. Eine aktuelle Studie der Stanford University zeigt, dass bei Normalisierung des Rechenaufwands Single-Agent-Systeme mit Multi-Agent-Systemen gleichziehen oder diese sogar übertreffen.
Die Forscher stellten die These auf, dass Single-Agent-Systeme bei einem festen Budget an Schlussfolgerungstoken und perfekter Kontextnutzung informationseffizienter sind. Multi-Agent-Systeme werden hingegen wettbewerbsfähig, wenn die effektive Kontextnutzung eines einzelnen Agenten beeinträchtigt ist oder wenn mehr Rechenaufwand betrieben wird.
In einer kontrollierten empirischen Studie wurde diese Theorie über drei Modellfamilien hinweg (Qwen3, DeepSeek-R1-Distill-Llama und Gemini 2.5) überprüft, wobei Single-Agent-Systeme mit verschiedenen Multi-Agent-Systemen bei identischen Budgets verglichen wurden. dabei stellten die Forscher fest, dass Single-Agent-Systeme bei Multi-Hop-Schlussfolgerungsaufgaben Multi-Agent-Systemen durchweg gleichwertig sind oder übertreffen, wenn die Anzahl der Schlussfolgerungstoken konstant gehalten wird.
Die Ergebnisse deuten laut den Forschern darauf hin, dass sich viele der berichteten Vorteile von Multi-Agenten-Systemen bei Multi-Hop-Schlussfolgerungsaufgaben besser durch nicht berücksichtigte Rechen- und Kontexteffekte erklären lassen als durch inhärente architektonische Vorteile. Dies unterstreicht die Wichtigkeit, die Vor- und Nachteile zwischen Rechenleistung, Kontext und Koordination in agentenbasierten Systemen besser zu verstehen und explizit zu steuern.
URLs: