Logo

Freitag, Juni 19, 2026

Artificial Analysis: Benchmark zum Testen von Ki-Modellen anhand realistischer Wissensarbeit-Aufgaben

AA-Briefcase ist ein neuer Benchmark zum Testen von Modellen anhand realistischer Aufgaben aus dem Bereich der wissenschaftlichen Arbeit in komplexen Projekten, die von Branchenexperten entwickelt wurden. AA-Briefcase kombiniert eine Rubrikbewertung mit einer paarweisen Bewertung, um den nachweisbaren Erfolg bei der Aufgabenbearbeitung, die analytische Qualität und die Präsentationsqualität zu bewerten, und soll so einen Überblick über die Leistungsfähigkeit von Agenten bei der wissenschaftlichen Arbeit liefern.
Als bestes KI-System schnitt Claude Fable 5 ab, konnte aber nur bei 3 Prozent der Aufgaben sämtliche Kriterien erfüllen. Bei 31 von 91 Aufgaben schafft kein einziges Modell mehr als 50 Prozent der zu erfüllenden Arbeit. Leistungsschwächere Ki-Systeme übersehen relevante Dateien und liefern falsche Ergebnisse, leistungsstärkere KI-Systeme erfüllen zwar anscheinend die Vorgaben, übersehen aber Detailaufgaben, sodass die Ergebnisse daher so auch nicht zu nutzen sind.
Die Preise zur Erfüllung der Aufgaben variieren dabei deutlich: Von rund 0,04 Dollar bei DeepSeek V4 Flash bis über 31 Dollar bei Claude Fable 5.
URLs:

Pressebericht:

Agentic Resource Discovery (ARD): KI-Agenten können selbstständig passende Ki-Dienste finden

Google, Cisco, GitHub, Hugging Face, Microsoft, Nvidia und Snowflake stellten am 2026-06-17 die Agentic Resource Discovery (ARD) vor, mit welcher KI-Agenten Tools und Dienste organisationsübergreifend und unabhängig vom dahinterstehenden Framework, Protokoll oder Anbieter. Dazu definiert die ARD öffentlich zugängliche Verzeichnisse, basierend auf Katalogen und Registries.
URLs:

Welche Namen stecken in welchem KI-Modell? Webseite bietet Suchfunktion an

Mit der Suchfunktion auf der Webseite “In the Weights” (https://intheweights.com/) kann in

  • GPT-5.5,
  • GPT-5.4 Mini,
  • Opus 4.8,
  • Haiku 4.5,
  • Grok 4.20,
  • Gemini 3.1 Lite,
  • Kimi K2 0905,
  • DeepSeek V4,
  • Llama 3.3 70B,
  • Llama 3.2 1B,
  • GLM 4.7 Flash,
  • Mistral 3.2 24B
  • Qwen3 8B

gesucht werden, welcher Name eines Menschen in welchem Modell vorhanden ist. Dazu werden die “Gewichte” (weights) der LLM durchsucht mit einer Formulierung wie „Wer ist ? Gib bis zu 10 Ergebnisse an, jeweils mit einer kurzen Beschreibung und einer Konfidenzbewertung.“ Anschließend werden ähnliche Beschreibungen zu Clustern zusammengefasst und mit einem Wert für die Genauigkeit bewertet.
“In the weights” bedeutet, dass ein Modell in der Lage ist, sich an eine Person zu erinnern, ohne auf Hilfsmittel wie die Websuche zurückzugreifen, d.h. die Informationen sind im Modell gespeichert.

Google Deepmind (GDM): AI-Control-Roadmap zur Absicherung von KI-Systemen und -Agenten veröffentlicht

Google Deepmind veröffentlichte am 2026-06-18 eine “AI-Control-Roadmap”. Eine interne Analyse von einer Million Aufgaben, die Deepmind bei Google durchführte, zeigte, dass Fehlverhalten durch KI-Agenten in der Regel auf Übereifer und nicht auf böse Absicht zurückgeht. Alignment, d. h. das Training auf sicheres und hilfreiches Verhalten eines Ki-Systems bzw. Ki-Agenten, funktioniert also nicht sicher. Und die Folgen können, je nach Rechten des betreffenden KI-Agenten, für ein Unternehmen gravierend sein und entsprechende Kosten und andere Ressourcen kosten
Google Deepmind betrachtet daher die eigenen KI-Agenten wie potenzielle Insider-Bedrohungen, welche durch entsprechende Sicherheitsmaßnahmen eingehegt werden müssen. Die veröffentlichte “AI-Control-Roadmap”, welche auf dem MITRE ATT&CK-Framework aufbaut, beschreibt, wie Google seine KI-Systeme absichert. Die Roadmap in Version 0.1 umfasst 15 aufeinander aufbauende Schutzmaßnahmen – von einfachen Netzwerkprotokollen bis hin zu Echtzeit-Verhaltensüberwachung und automatischer Zugriffssperrung.
Deepmind geht davon aus, dass diese AI-Control-Roadmap auch als Modell zur KI-Absicherung für alle anderen Unternehmen verwendet werden kann.
URLs:

Presseberichte:

AMD und Intel einigen sich auf KI-Befehlssatz für x86-Prozessoren

AMD und Intel kooperieren in der x86 Ecosystem Advisory Group (https://x86ecosystem.org/), zu deren Mitglieder ebenso dir großen PC-Hersteller gehören (https://x86ecosystem.org/members/).
Speziell für KI wurde eine neue Spezifikation für neue x86-Prozessorbefehle erarbeitet, welche am 2026-06-15 veröffentlicht wurde: Die „AI Compute Extensions“ (ACE).
Die Spezifikation definiert x86-Erweiterungen zur Beschleunigung von Rechenoperationen, wobei der Schwerpunkt zunächst auf Matrix-Multiplikationen mit KI-Datenformaten liegt, die für Machine-Learning-Workloads von Bedeutung sind. Zusätzlich zur Beschleunigung von Matrixoperationen stehen unter dem AVX10-Framework eine Reihe dedizierter Formatkonvertierungsoperationen zur Verfügung.
URLs:

Presseberichte: