KI-Infos « Kategorie - Entwicklung

Dienstag, Mai 12, 2026

MATS-Forschungsergebnis: Beseitigung von “Sandbagging” in LLMs durch Training mit schwacher Überwachung

Die Überwachung von KI-Systemen wird immer häufiger auf schwächere Modelle verlagert oder es erfolgt eine begrenzte menschliche Kontrolle, welche die Qualität der Ergebnisse nicht vollständig überprüfen kann. Ein Modell, das leistungsfähiger ist als seine Überwacher, könnte diese Lücke durch “Sandbagging” (siehe https://arxiv.org/abs/2406.07358) ausnutzen und Ergebnisse liefern, die zwar akzeptabel erscheinen, aber hinter seinen tatsächlichen Fähigkeiten zurückbleiben. Aus Sicherheitsgründen ist ein entsprechendes Verhalten nicht akzeptabel, da entsprechende KI-Modelle Sicherheitsbewertungen unterlaufen könnten: Ein KI-Modell, das in Tests unauffällig wirkt, könnte im echten Einsatz ganz andere Fähigkeiten zeigen oder kritische Aufgaben bewusst sabotieren.
Forscher des MATS beschäftigten sich mit dem Thema und stellten fest, dass supervised fine-tuning (SFT) auf Basis schwacher Darstellungen das Sandbagging-Verhalten durchbrechen kann, wodurch reinforcement learning (RL) anschließend die volle Leistungsfähigkeit hervorbringen kann.
Keine der beiden Methoden ist für sich allein zuverlässig erfolgreich – RL ohne SFT führt fast immer zu „Reward Hacking“ statt zu echter Verbesserung, und SFT ohne RL kann keine volle Leistung hervorbringen, wenn der Supervisor deutlich schwächer ist als das nicht vertrauenswürdige Modell.
Der gesamte Ansatz hängt allerdings von einer zentralen Voraussetzung ab: Das Modell darf nicht erkennen können, ob es gerade trainiert wird oder sich im echten Einsatz befindet. Bemerkt das KI-Modell den Unterschied, kann es sich während des Trainings korrekte Antworten liefern, um die Trainingsmaßnahmen ins Leere laufen zu lassen. Erst im späteren Einsatz, wenn kein Training mehr stattfindet, fällt es in sein Sandbagging-Verhalten zurück.
URLs:

Forschungsbericht auf arXiv: https://arxiv.org/abs/2604.22082
MATS Pressemitteilung: https://www.matsprog … ith-weak-supervision
The Decoder (deutsch): https://the-decoder. … r-sandbagging-falle/

Gepostet von Admin um 06:45:42 in Entwicklung, Sicherheit, Anwendung, Forschung
134 Aufruf(e) Kommentar hinzufügen

Samstag, Mai 9, 2026

Natural Language Autoencoders liefern unbeaufsichtigte Erklärungen für die Aktivierungen von LLMs

Anthropic stellt in einem Papier vor, wie LLMs die interne “Denkarbeit” in Textform erklären. “Natural Language Autoencoders” (NLAs) sollen eine unüberwachte Methode zur Generierung von Erklärungen in natürlicher Sprache für LLM-Aktivierungen darstellen. Jeder NLA besteht aus zwei LLM-Modulen: Einem Aktivierungsverbalisierer (AV), der eine Aktivierung auf eine Textbeschreibung abbildet, und einem Aktivierungsrekonstruktor (AR), der die Beschreibung wieder auf eine Aktivierung abbildet.
Anthropic nutzte NLAs vor der Bereitstellung von Claude Opus 4.6 zur Identifikation von sicherheitsrelevanten Verhaltensweisen sowie zur Aufdeckung von nicht verbalisierten Bewertungsbewusstsein. Unter Bewertungsbewusstsein versteht Anthropic Fälle, in denen Claude glaubte, dass es bewertet wurde, dies aber nicht mitteilt.
Fazit von Anthropic: NLAs bieten eine praktische Schnittstelle für die Interpretierbarkeit und liefern aussagekräftige Erklärungen in natürlicher Sprache, die Menschen direkt lesen können.
URLs:

Anthropic Pressemitteilung: https://www.anthropi … anguage-autoencoders
Anthropic Paper: https://transformer- … /2026/nla/index.html
Code auf github: https://github.com/k … anguage_autoencoders

Presseberichte:

Quantum Zeitgeist: https://quantumzeitg … explain-activations/
The Decoder: https://the-decoder. … wn-reasoning-traces/
The Decoder (deutsch): https://the-decoder. … igenen-denkprozesse/
All-AI (deutsch): https://www.all-ai.d … c-ki-modelle-lesen-1
Diskussion bei reddit: https://www.reddit.c … ers_turning_claudes/
Diskussion auf Hacker News: https://news.ycombin … com/item?id=48052537
Podcast bei Spotify: https://open.spotify … sWdYAtvPe3pM4w0UIsXX

Gepostet von Admin um 06:41:34 in Entwicklung, Nutzung, Forschung
191 Aufruf(e) Kommentar hinzufügen

Freitag, Mai 1, 2026

Elon Musk: xAI nutzte zur Entwicklung der eigenen Modelle die KI-Modelle von OpenAi

Unter Eid gab Elon Musk zu, dass seine Firma xAI per Destillation Modelle von OpenAI zur Entwicklung der eigenen Modelle nutzte. Bericht bei ntv unter https://www.n-tv.de/ … alen-id30775450.html

Gepostet von Admin um 09:20:33 in Entwicklung, Copyright, Rechtsprechung, Gesellschaft
201 Aufruf(e) Kommentar hinzufügen

Freitag, April 24, 2026

Vive-Coding: Menschen, die viel LLMs einsetzen, erhalten schlechtere Ergebnisse

Forscher der ETH Zürich untersuchten, wer gut Vibe-Coding nutzen kann: Menschen, welche über gute Informatik- und gute Sprachkenntnisse verfügen, erledigen Aufgaben mit deutlich besseren Ergebnissen. Für mich erstaunlich: Menschen, die im Alltag oft KI einsetzen, schneiden wiederum deutlich schlechter ab. Die Forscher vermuten, dass ein häufiger LLM-Einsatz die eigene sprachliche Ausdrucksfähigkeit beeinflußt.
Die Studie wurde im April auf der CHI 2026 (https://chi2026.acm.org/) vorgestellt, Paper ist im Open Access unter https://dl.acm.org/ … 1145/3772318.3791666 abrufbar

Gepostet von Admin um 06:20:03 in Entwicklung, Nutzung, Gesellschaft
77 Aufruf(e) Kommentar hinzufügen

Freitag, April 10, 2026

Studie der Standfort-Universität: bei Normalisierung des Rechenaufwands zeigen Multi-Agent-Systeme gegenüber Single-Agent-Systeme keine Vorteile

Aktuelle Arbeiten berichten von einer starken Leistungsfähigkeit von Multi-Agent-LLM-Systemen, doch werden diese Gewinne oft durch einen erhöhten Rechenaufwand während der Testphase überdeckt. Eine aktuelle Studie der Stanford University zeigt, dass bei Normalisierung des Rechenaufwands Single-Agent-Systeme mit Multi-Agent-Systemen gleichziehen oder diese sogar übertreffen.
Die Forscher stellten die These auf, dass Single-Agent-Systeme bei einem festen Budget an Schlussfolgerungstoken und perfekter Kontextnutzung informationseffizienter sind. Multi-Agent-Systeme werden hingegen wettbewerbsfähig, wenn die effektive Kontextnutzung eines einzelnen Agenten beeinträchtigt ist oder wenn mehr Rechenaufwand betrieben wird.
In einer kontrollierten empirischen Studie wurde diese Theorie über drei Modellfamilien hinweg (Qwen3, DeepSeek-R1-Distill-Llama und Gemini 2.5) überprüft, wobei Single-Agent-Systeme mit verschiedenen Multi-Agent-Systemen bei identischen Budgets verglichen wurden. dabei stellten die Forscher fest, dass Single-Agent-Systeme bei Multi-Hop-Schlussfolgerungsaufgaben Multi-Agent-Systemen durchweg gleichwertig sind oder übertreffen, wenn die Anzahl der Schlussfolgerungstoken konstant gehalten wird.
Die Ergebnisse deuten laut den Forschern darauf hin, dass sich viele der berichteten Vorteile von Multi-Agenten-Systemen bei Multi-Hop-Schlussfolgerungsaufgaben besser durch nicht berücksichtigte Rechen- und Kontexteffekte erklären lassen als durch inhärente architektonische Vorteile. Dies unterstreicht die Wichtigkeit, die Vor- und Nachteile zwischen Rechenleistung, Kontext und Koordination in agentenbasierten Systemen besser zu verstehen und explizit zu steuern.
URLs:

Forschungsbericht bei arXiv: https://arxiv.org/abs/2604.02460v1

Gepostet von Admin um 07:24:26 in Entwicklung, Nutzung, Forschung
189 Aufruf(e) Kommentar hinzufügen

KI-Infos

Dienstag, Mai 12, 2026

MATS-Forschungsergebnis: Beseitigung von “Sandbagging” in LLMs durch Training mit schwacher Überwachung

Samstag, Mai 9, 2026

Natural Language Autoencoders liefern unbeaufsichtigte Erklärungen für die Aktivierungen von LLMs

Freitag, Mai 1, 2026

Elon Musk: xAI nutzte zur Entwicklung der eigenen Modelle die KI-Modelle von OpenAi

Freitag, April 24, 2026

Vive-Coding: Menschen, die viel LLMs einsetzen, erhalten schlechtere Ergebnisse

Freitag, April 10, 2026

Studie der Standfort-Universität: bei Normalisierung des Rechenaufwands zeigen Multi-Agent-Systeme gegenüber Single-Agent-Systeme keine Vorteile

Administration

Menü

Kategorien

Archiv

Abonnieren

KI-Infos

Dienstag, Mai 12, 2026

MATS-Forschungsergebnis: Beseitigung von “Sandbagging” in LLMs durch Training mit schwacher Überwachung

Samstag, Mai 9, 2026

Natural Language Autoencoders liefern unbeaufsichtigte Erklärungen für die Aktivierungen von LLMs

Freitag, Mai 1, 2026

Elon Musk: xAI nutzte zur Entwicklung der eigenen Modelle die KI-Modelle von OpenAi

Freitag, April 24, 2026

Vive-Coding: Menschen, die viel LLMs einsetzen, erhalten schlechtere Ergebnisse

Freitag, April 10, 2026

Studie der Standfort-Universität: bei Normalisierung des Rechenaufwands zeigen Multi-Agent-Systeme gegenüber Single-Agent-Systeme keine Vorteile

Administration

Menü

Kategorien

Archiv

Suchen

Abonnieren