KI-Infos « Startseite des Blogs

Freitag, Juni 19, 2026

Artificial Analysis: Benchmark zum Testen von Ki-Modellen anhand realistischer Wissensarbeit-Aufgaben

AA-Briefcase ist ein neuer Benchmark zum Testen von Modellen anhand realistischer Aufgaben aus dem Bereich der wissenschaftlichen Arbeit in komplexen Projekten, die von Branchenexperten entwickelt wurden. AA-Briefcase kombiniert eine Rubrikbewertung mit einer paarweisen Bewertung, um den nachweisbaren Erfolg bei der Aufgabenbearbeitung, die analytische Qualität und die Präsentationsqualität zu bewerten, und soll so einen Überblick über die Leistungsfähigkeit von Agenten bei der wissenschaftlichen Arbeit liefern.
Als bestes KI-System schnitt Claude Fable 5 ab, konnte aber nur bei 3 Prozent der Aufgaben sämtliche Kriterien erfüllen. Bei 31 von 91 Aufgaben schafft kein einziges Modell mehr als 50 Prozent der zu erfüllenden Arbeit. Leistungsschwächere Ki-Systeme übersehen relevante Dateien und liefern falsche Ergebnisse, leistungsstärkere KI-Systeme erfüllen zwar anscheinend die Vorgaben, übersehen aber Detailaufgaben, sodass die Ergebnisse daher so auch nicht zu nutzen sind.
Die Preise zur Erfüllung der Aufgaben variieren dabei deutlich: Von rund 0,04 Dollar bei DeepSeek V4 Flash bis über 31 Dollar bei Claude Fable 5.
URLs:

Artificial Analysis Ankündigung Benchmark: https://artificialan … rticles/aa-briefcase
AA-Briefcase - Agentic Knowledge Work Benchmark: https://artificialan … riefcase?results=elo
Hugging Face: https://huggingface. … is/AA-Briefcase-Lite

Pressebericht:

The Decoder: https://the-decoder. … ollstaendig-korrekt/

Gepostet von Admin um 17:38:40 in Nutzung, Anwendung, Standardisierung, Forschung
4 Aufruf(e) Kommentar hinzufügen

Agentic Resource Discovery (ARD): KI-Agenten können selbstständig passende Ki-Dienste finden

Google, Cisco, GitHub, Hugging Face, Microsoft, Nvidia und Snowflake stellten am 2026-06-17 die Agentic Resource Discovery (ARD) vor, mit welcher KI-Agenten Tools und Dienste organisationsübergreifend und unabhängig vom dahinterstehenden Framework, Protokoll oder Anbieter. Dazu definiert die ARD öffentlich zugängliche Verzeichnisse, basierend auf Katalogen und Registries.
URLs:

Agentic Resource Discovery (ARD)
- ARD Homepage: https://agenticresourcediscovery.org/
- ARD Spezifikation: https://agenticresou … ediscovery.org/spec/
- AI Catalog Standard: https://agenticresou … org/ai_catalog_spec/
- github: https://github.com/ards-project/
Ankündigung:
- Google: https://developers.g … overy-specification/
- Microsoft: https://commandline. … y-specification-ard/
- Hugging Face: https://huggingface. … rce-discovery-launch
- Cisco: https://outshift.cis … ents-find-each-other
Berichte
- IETF: https://www.ietf.org … ood-agtp-ard-00.html
- InfoWorld: https://www.infoworl … ource-discovery.html
- heise online (deutsch): https://www.heise.de … genten-11338422.html

Gepostet von Admin um 17:35:44 in Entwicklung, Nutzung, Anwendung, Standardisierung
10 Aufruf(e) Kommentar hinzufügen

Welche Namen stecken in welchem KI-Modell? Webseite bietet Suchfunktion an

Mit der Suchfunktion auf der Webseite “In the Weights” (https://intheweights.com/) kann in

GPT-5.5,
GPT-5.4 Mini,
Opus 4.8,
Haiku 4.5,
Grok 4.20,
Gemini 3.1 Lite,
Kimi K2 0905,
DeepSeek V4,
Llama 3.3 70B,
Llama 3.2 1B,
GLM 4.7 Flash,
Mistral 3.2 24B
Qwen3 8B

gesucht werden, welcher Name eines Menschen in welchem Modell vorhanden ist. Dazu werden die “Gewichte” (weights) der LLM durchsucht mit einer Formulierung wie „Wer ist ? Gib bis zu 10 Ergebnisse an, jeweils mit einer kurzen Beschreibung und einer Konfidenzbewertung.“ Anschließend werden ähnliche Beschreibungen zu Clustern zusammengefasst und mit einem Wert für die Genauigkeit bewertet.
“In the weights” bedeutet, dass ein Modell in der Lage ist, sich an eine Person zu erinnern, ohne auf Hilfsmittel wie die Websuche zurückzugreifen, d.h. die Informationen sind im Modell gespeichert.

Gepostet von Admin um 10:43:17 in Copyright, Datenschutz, Gesellschaft
9 Aufruf(e) Kommentar hinzufügen

Google Deepmind (GDM): AI-Control-Roadmap zur Absicherung von KI-Systemen und -Agenten veröffentlicht

Google Deepmind veröffentlichte am 2026-06-18 eine “AI-Control-Roadmap”. Eine interne Analyse von einer Million Aufgaben, die Deepmind bei Google durchführte, zeigte, dass Fehlverhalten durch KI-Agenten in der Regel auf Übereifer und nicht auf böse Absicht zurückgeht. Alignment, d. h. das Training auf sicheres und hilfreiches Verhalten eines Ki-Systems bzw. Ki-Agenten, funktioniert also nicht sicher. Und die Folgen können, je nach Rechten des betreffenden KI-Agenten, für ein Unternehmen gravierend sein und entsprechende Kosten und andere Ressourcen kosten
Google Deepmind betrachtet daher die eigenen KI-Agenten wie potenzielle Insider-Bedrohungen, welche durch entsprechende Sicherheitsmaßnahmen eingehegt werden müssen. Die veröffentlichte “AI-Control-Roadmap”, welche auf dem MITRE ATT&CK-Framework aufbaut, beschreibt, wie Google seine KI-Systeme absichert. Die Roadmap in Version 0.1 umfasst 15 aufeinander aufbauende Schutzmaßnahmen – von einfachen Netzwerkprotokollen bis hin zu Echtzeit-Verhaltensüberwachung und automatischer Zugriffssperrung.
Deepmind geht davon aus, dass diese AI-Control-Roadmap auch als Modell zur KI-Absicherung für alle anderen Unternehmen verwendet werden kann.
URLs:

Bericht von Google Deepmind: https://deepmind.goo … future-of-ai-agents/
pdf-Datei “AI Control Roadmap”: https://storage.goog … -control-roadmap.pdf

Presseberichte:

The Decoder: https://the-decoder. … mit-bueroschluessel/
Perplexity: https://www.perplexi … d9-917c-a5805bc43df3

Gepostet von Admin um 08:13:40 in Sicherheit, Standardisierung, Forschung
21 Aufruf(e) Kommentar hinzufügen

AMD und Intel einigen sich auf KI-Befehlssatz für x86-Prozessoren

AMD und Intel kooperieren in der x86 Ecosystem Advisory Group (https://x86ecosystem.org/), zu deren Mitglieder ebenso dir großen PC-Hersteller gehören (https://x86ecosystem.org/members/).
Speziell für KI wurde eine neue Spezifikation für neue x86-Prozessorbefehle erarbeitet, welche am 2026-06-15 veröffentlicht wurde: Die „AI Compute Extensions“ (ACE).
Die Spezifikation definiert x86-Erweiterungen zur Beschleunigung von Rechenoperationen, wobei der Schwerpunkt zunächst auf Matrix-Multiplikationen mit KI-Datenformaten liegt, die für Machine-Learning-Workloads von Bedeutung sind. Zusätzlich zur Beschleunigung von Matrixoperationen stehen unter dem AVX10-Framework eine Reihe dedizierter Formatkonvertierungsoperationen zur Verfügung.
URLs:

AI Compute Extensions (ACE) Specification: https://x86ecosystem … s-ace-specification/
ACE Whitepaper: https://x86ecosystem … rce/ace-white-paper/

Presseberichte:

overclock 3d: https://overclock3d. … -extensions-for-x86/
hardwareLUXX (deutsch): https://www.hardware … el-spezifiziert.html
heise online (deutsch): https://www.heise.de … rkerne-11338878.html

Gepostet von Admin um 07:02:35 in Entwicklung, Standardisierung
4 Aufruf(e) Kommentar hinzufügen

KI-Infos

Freitag, Juni 19, 2026

Artificial Analysis: Benchmark zum Testen von Ki-Modellen anhand realistischer Wissensarbeit-Aufgaben

Agentic Resource Discovery (ARD): KI-Agenten können selbstständig passende Ki-Dienste finden

Welche Namen stecken in welchem KI-Modell? Webseite bietet Suchfunktion an

Google Deepmind (GDM): AI-Control-Roadmap zur Absicherung von KI-Systemen und -Agenten veröffentlicht

AMD und Intel einigen sich auf KI-Befehlssatz für x86-Prozessoren

Administration

Menü

Kategorien

Archiv

Abonnieren

KI-Infos

Freitag, Juni 19, 2026

Artificial Analysis: Benchmark zum Testen von Ki-Modellen anhand realistischer Wissensarbeit-Aufgaben

Agentic Resource Discovery (ARD): KI-Agenten können selbstständig passende Ki-Dienste finden

Welche Namen stecken in welchem KI-Modell? Webseite bietet Suchfunktion an

Google Deepmind (GDM): AI-Control-Roadmap zur Absicherung von KI-Systemen und -Agenten veröffentlicht

AMD und Intel einigen sich auf KI-Befehlssatz für x86-Prozessoren

Administration

Menü

Kategorien

Archiv

Suchen

Abonnieren