Logo

Freitag, Juni 19, 2026

Artificial Analysis: Benchmark zum Testen von Ki-Modellen anhand realistischer Wissensarbeit-Aufgaben

AA-Briefcase ist ein neuer Benchmark zum Testen von Modellen anhand realistischer Aufgaben aus dem Bereich der wissenschaftlichen Arbeit in komplexen Projekten, die von Branchenexperten entwickelt wurden. AA-Briefcase kombiniert eine Rubrikbewertung mit einer paarweisen Bewertung, um den nachweisbaren Erfolg bei der Aufgabenbearbeitung, die analytische Qualität und die Präsentationsqualität zu bewerten, und soll so einen Überblick über die Leistungsfähigkeit von Agenten bei der wissenschaftlichen Arbeit liefern.
Als bestes KI-System schnitt Claude Fable 5 ab, konnte aber nur bei 3 Prozent der Aufgaben sämtliche Kriterien erfüllen. Bei 31 von 91 Aufgaben schafft kein einziges Modell mehr als 50 Prozent der zu erfüllenden Arbeit. Leistungsschwächere Ki-Systeme übersehen relevante Dateien und liefern falsche Ergebnisse, leistungsstärkere KI-Systeme erfüllen zwar anscheinend die Vorgaben, übersehen aber Detailaufgaben, sodass die Ergebnisse daher so auch nicht zu nutzen sind.
Die Preise zur Erfüllung der Aufgaben variieren dabei deutlich: Von rund 0,04 Dollar bei DeepSeek V4 Flash bis über 31 Dollar bei Claude Fable 5.
URLs:

Pressebericht:

Agentic Resource Discovery (ARD): KI-Agenten können selbstständig passende Ki-Dienste finden

Google, Cisco, GitHub, Hugging Face, Microsoft, Nvidia und Snowflake stellten am 2026-06-17 die Agentic Resource Discovery (ARD) vor, mit welcher KI-Agenten Tools und Dienste organisationsübergreifend und unabhängig vom dahinterstehenden Framework, Protokoll oder Anbieter. Dazu definiert die ARD öffentlich zugängliche Verzeichnisse, basierend auf Katalogen und Registries.
URLs:

Mittwoch, Juni 17, 2026

Microsoft Studie: LLMs verfälschen Dokumente, wenn man Aufgaben auslagert

Forscher von Microsoft stellten DELEGATE-52 vor, ein Tool, mit welchem die Eignung von KI-Systemen in ausgelagerten Arbeitsabläufen untersucht werden kann. DELEGATE-52 simuliert dabei umfangreiche delegierte Arbeitsabläufe, die eine tiefgreifende Dokumentbearbeitung in 52 Fachbereichen erfordern, darunter Programmierung, kristallographische Analyse und musiktheoretische Notation.
Im Experiment mit 19 LLMs zeigten die Forscher, dass aktuelle KI-Modelle Dokumente während der Verarbeitung beeinträchtigen: Selbst Spitzenmodelle (Gemini 3.1 Pro, Claude 4.6 Opus, GPT 5.4) verfälschen am Ende langer Arbeitsabläufe durchschnittlich 25 % des Dokumentinhalts, während andere Modelle noch gravierendere Fehler aufweisen.
Weitere Experimente zeigen, dass das Ausmaß der Qualitätsminderung durch die Dokumentgröße, die Dauer der Interaktion oder das Vorhandensein von ablenkenden Dateien noch verstärkt wird. Dabei verbessert der Einsatz agentischer Werkzeuge die Leistung bei DELEGATE-52 nicht.
URLs:

Presseberichte:

Dienstag, Juni 16, 2026

EU-Kommission veröffentlicht Icons zur Kennzeichnung von KI-genrierten Inhalten

Die EU-Kommission veröffentlichte am 10 Juni 2026 einheitliche Icons zur Kennzeichnung von KI-genrierten Inhalten:

  • ein Basis-Symbol,
  • eines für vollständig KI-generierte Inhalte
  • und eines für teilweise KI-bearbeitete Inhalte.

Die Symbole sind Teil des Code of Practice und kostenlos nutzbar. Die Nutzung der Icons ist freiwillig, die Kennzeichnungspflicht selbst aber nicht. Die Icons stehen in den Formaten SVG und PNG in vier Varianten (schwarzer Hintergrund, schwarz und transparent, weißer Hintergrund, weiß und transparent) zum Download zur Verfügung.
URLs:

Donnerstag, Juni 4, 2026

KI-Agenten verbessern Malware: Adaptive Computerwürmer durch LLM-Nutzung

Ein Computerwurm ist eine Schadsoftware, die sich in einem Netzwerk verbreitet, indem sie sich von einem Rechner auf den nächsten kopiert. Forscher der Universität Toronto zeigten, wie so ein Computerwurm durch KI sehr viel effizienter fremde Computernetzwerke infiltrieren kann. Durch Einsatz von KI-Agenten wurde ein Wurm entwickelt, der für jedes Ziel, auf das er trifft, maßgeschneiderte Angriffsstrategien entwickelt.
Der Wurm nutzt kompromittierte Rechner parasitär, um offene LLMs auszuführen, um hierdurch sein Schlussfolgerungsvermögen aufrechtzuerhalten oder seine Reichweite für weitere Angriffe zu vergrößern. Da der Wurm durch gestohlene Rechenleistung betrieben wird, betragen die Grenzkosten des Angreifers pro neuer Infektion null. Der Wurm benötigt keine kommerzielle KI-Plattform, zentralisierte Sicherheitskontrollen wie die Sperrung von Diensten oder Ratenbegrenzungen sind daher strukturell irrelevant.
Der Wurm wurde in einem Netzwerk aus Linux-, Windows- und IoT-Geräten (Internet of Things) eingesetzt und verbreitete sich, indem er gängige, reale Schwachstellen in Unternehmensnetzwerken ausnutzte. Jeder Host wird mit einer oder mehreren absichtlich eingebauten Schwachstellen ausgestattet, die aus zwei sich ergänzenden Klassen stammen.

  • Die erste Klasse besteht aus explizit dokumentierten Softwarefehlern mit veröffentlichten Common Vulnerabilities and Exposures (CVE)-Kennungen.
  • ie zweite Klasse besteht aus abstrakten, auf Schlussfolgerungen basierenden Mustern häufiger Schwachstellen, wie z. B. Software-Missbrauch, Fehlkonfigurationen und mangelhafte Sicherheitshygiene, wie sie durch die Common Weakness Enumeration (CWE)-Klassen definiert sind.

Drei weitere Hosts sind mit Schwachstellen ausgestattet, die im April und Mai 2026 offengelegt wurden und somit außerhalb des Trainingszeitraums des von unserem Agenten verwendeten LLM liegen. Trotzdem nutzte der Wurm diese zum Zeitpunkt des Trainings unbekannte Schwachstellen, indem er öffentlich zugängliche Sicherheitshinweise zur Laufzeit einbezog.
URLs:

Berichte dazu: