Logo

Freitag, Juni 19, 2026

Artificial Analysis: Benchmark zum Testen von Ki-Modellen anhand realistischer Wissensarbeit-Aufgaben

AA-Briefcase ist ein neuer Benchmark zum Testen von Modellen anhand realistischer Aufgaben aus dem Bereich der wissenschaftlichen Arbeit in komplexen Projekten, die von Branchenexperten entwickelt wurden. AA-Briefcase kombiniert eine Rubrikbewertung mit einer paarweisen Bewertung, um den nachweisbaren Erfolg bei der Aufgabenbearbeitung, die analytische Qualität und die Präsentationsqualität zu bewerten, und soll so einen Überblick über die Leistungsfähigkeit von Agenten bei der wissenschaftlichen Arbeit liefern.
Als bestes KI-System schnitt Claude Fable 5 ab, konnte aber nur bei 3 Prozent der Aufgaben sämtliche Kriterien erfüllen. Bei 31 von 91 Aufgaben schafft kein einziges Modell mehr als 50 Prozent der zu erfüllenden Arbeit. Leistungsschwächere Ki-Systeme übersehen relevante Dateien und liefern falsche Ergebnisse, leistungsstärkere KI-Systeme erfüllen zwar anscheinend die Vorgaben, übersehen aber Detailaufgaben, sodass die Ergebnisse daher so auch nicht zu nutzen sind.
Die Preise zur Erfüllung der Aufgaben variieren dabei deutlich: Von rund 0,04 Dollar bei DeepSeek V4 Flash bis über 31 Dollar bei Claude Fable 5.
URLs:

Pressebericht:

Google Deepmind (GDM): AI-Control-Roadmap zur Absicherung von KI-Systemen und -Agenten veröffentlicht

Google Deepmind veröffentlichte am 2026-06-18 eine “AI-Control-Roadmap”. Eine interne Analyse von einer Million Aufgaben, die Deepmind bei Google durchführte, zeigte, dass Fehlverhalten durch KI-Agenten in der Regel auf Übereifer und nicht auf böse Absicht zurückgeht. Alignment, d. h. das Training auf sicheres und hilfreiches Verhalten eines Ki-Systems bzw. Ki-Agenten, funktioniert also nicht sicher. Und die Folgen können, je nach Rechten des betreffenden KI-Agenten, für ein Unternehmen gravierend sein und entsprechende Kosten und andere Ressourcen kosten
Google Deepmind betrachtet daher die eigenen KI-Agenten wie potenzielle Insider-Bedrohungen, welche durch entsprechende Sicherheitsmaßnahmen eingehegt werden müssen. Die veröffentlichte “AI-Control-Roadmap”, welche auf dem MITRE ATT&CK-Framework aufbaut, beschreibt, wie Google seine KI-Systeme absichert. Die Roadmap in Version 0.1 umfasst 15 aufeinander aufbauende Schutzmaßnahmen – von einfachen Netzwerkprotokollen bis hin zu Echtzeit-Verhaltensüberwachung und automatischer Zugriffssperrung.
Deepmind geht davon aus, dass diese AI-Control-Roadmap auch als Modell zur KI-Absicherung für alle anderen Unternehmen verwendet werden kann.
URLs:

Presseberichte:

Mittwoch, Juni 17, 2026

Microsoft Studie: LLMs verfälschen Dokumente, wenn man Aufgaben auslagert

Forscher von Microsoft stellten DELEGATE-52 vor, ein Tool, mit welchem die Eignung von KI-Systemen in ausgelagerten Arbeitsabläufen untersucht werden kann. DELEGATE-52 simuliert dabei umfangreiche delegierte Arbeitsabläufe, die eine tiefgreifende Dokumentbearbeitung in 52 Fachbereichen erfordern, darunter Programmierung, kristallographische Analyse und musiktheoretische Notation.
Im Experiment mit 19 LLMs zeigten die Forscher, dass aktuelle KI-Modelle Dokumente während der Verarbeitung beeinträchtigen: Selbst Spitzenmodelle (Gemini 3.1 Pro, Claude 4.6 Opus, GPT 5.4) verfälschen am Ende langer Arbeitsabläufe durchschnittlich 25 % des Dokumentinhalts, während andere Modelle noch gravierendere Fehler aufweisen.
Weitere Experimente zeigen, dass das Ausmaß der Qualitätsminderung durch die Dokumentgröße, die Dauer der Interaktion oder das Vorhandensein von ablenkenden Dateien noch verstärkt wird. Dabei verbessert der Einsatz agentischer Werkzeuge die Leistung bei DELEGATE-52 nicht.
URLs:

Presseberichte:

Donnerstag, Juni 4, 2026

KI-Agenten verbessern Malware: Adaptive Computerwürmer durch LLM-Nutzung

Ein Computerwurm ist eine Schadsoftware, die sich in einem Netzwerk verbreitet, indem sie sich von einem Rechner auf den nächsten kopiert. Forscher der Universität Toronto zeigten, wie so ein Computerwurm durch KI sehr viel effizienter fremde Computernetzwerke infiltrieren kann. Durch Einsatz von KI-Agenten wurde ein Wurm entwickelt, der für jedes Ziel, auf das er trifft, maßgeschneiderte Angriffsstrategien entwickelt.
Der Wurm nutzt kompromittierte Rechner parasitär, um offene LLMs auszuführen, um hierdurch sein Schlussfolgerungsvermögen aufrechtzuerhalten oder seine Reichweite für weitere Angriffe zu vergrößern. Da der Wurm durch gestohlene Rechenleistung betrieben wird, betragen die Grenzkosten des Angreifers pro neuer Infektion null. Der Wurm benötigt keine kommerzielle KI-Plattform, zentralisierte Sicherheitskontrollen wie die Sperrung von Diensten oder Ratenbegrenzungen sind daher strukturell irrelevant.
Der Wurm wurde in einem Netzwerk aus Linux-, Windows- und IoT-Geräten (Internet of Things) eingesetzt und verbreitete sich, indem er gängige, reale Schwachstellen in Unternehmensnetzwerken ausnutzte. Jeder Host wird mit einer oder mehreren absichtlich eingebauten Schwachstellen ausgestattet, die aus zwei sich ergänzenden Klassen stammen.

  • Die erste Klasse besteht aus explizit dokumentierten Softwarefehlern mit veröffentlichten Common Vulnerabilities and Exposures (CVE)-Kennungen.
  • ie zweite Klasse besteht aus abstrakten, auf Schlussfolgerungen basierenden Mustern häufiger Schwachstellen, wie z. B. Software-Missbrauch, Fehlkonfigurationen und mangelhafte Sicherheitshygiene, wie sie durch die Common Weakness Enumeration (CWE)-Klassen definiert sind.

Drei weitere Hosts sind mit Schwachstellen ausgestattet, die im April und Mai 2026 offengelegt wurden und somit außerhalb des Trainingszeitraums des von unserem Agenten verwendeten LLM liegen. Trotzdem nutzte der Wurm diese zum Zeitpunkt des Trainings unbekannte Schwachstellen, indem er öffentlich zugängliche Sicherheitshinweise zur Laufzeit einbezog.
URLs:

Berichte dazu:

Dienstag, Juni 2, 2026

Beweise für nennenswerte positive Klimaauswirkungen durch KI kaum vorhanden, während Beweise für erhebliche Klimaschäden klar belegt sind

Oftmals wird behauptet, KI habe positiven Einfluss auf den Klimaschutz. AlgorithmWatch veröffentlichte am 1. Juni 2026 eine Studie, die dies untersucht. In der Studie wurden die wichtigsten dieser Klimaversprechen daraufhin analysiert, a) auf welche Art von KI sich diese Behauptungen beziehen und b) welche Belege für die jeweiligen Behauptungen existieren.
Die wichtigsten Ergebnisse:

  1. Aussagen über positive Klimaauswirkungen stehen immer mit “herkömmlicher” KI in Beziehung, aber nicht mit generativer KI.
  2. Diese Aussagen über positive Klimaauswirkungen durch herkömmliche KI basieren meist auf schwachen Belegen wie Unternehmenswebseiten, nicht auf wissenschaftlichen Veröffentlichungen. Nur etwa ein Viertel der in der Studie untersuchten positiven Aussagen beruhen auf wissenschaftliche Untersuchungen.
  3. Die massive Zunahme des Energieverbrauchs durch generative KI und die damit verbundenen Umweltschäden hingegen haben einen deutlich negativen Einfluss.

URLs:

Presseberichte: