Artificial Analysis: Benchmark zum Testen von Ki-Modellen anhand realistischer Wissensarbeit-Aufgaben : Kommentare

Freitag, Juni 19, 2026

Artificial Analysis: Benchmark zum Testen von Ki-Modellen anhand realistischer Wissensarbeit-Aufgaben

AA-Briefcase ist ein neuer Benchmark zum Testen von Modellen anhand realistischer Aufgaben aus dem Bereich der wissenschaftlichen Arbeit in komplexen Projekten, die von Branchenexperten entwickelt wurden. AA-Briefcase kombiniert eine Rubrikbewertung mit einer paarweisen Bewertung, um den nachweisbaren Erfolg bei der Aufgabenbearbeitung, die analytische Qualität und die Präsentationsqualität zu bewerten, und soll so einen Überblick über die Leistungsfähigkeit von Agenten bei der wissenschaftlichen Arbeit liefern.
Als bestes KI-System schnitt Claude Fable 5 ab, konnte aber nur bei 3 Prozent der Aufgaben sämtliche Kriterien erfüllen. Bei 31 von 91 Aufgaben schafft kein einziges Modell mehr als 50 Prozent der zu erfüllenden Arbeit. Leistungsschwächere Ki-Systeme übersehen relevante Dateien und liefern falsche Ergebnisse, leistungsstärkere KI-Systeme erfüllen zwar anscheinend die Vorgaben, übersehen aber Detailaufgaben, sodass die Ergebnisse daher so auch nicht zu nutzen sind.
Die Preise zur Erfüllung der Aufgaben variieren dabei deutlich: Von rund 0,04 Dollar bei DeepSeek V4 Flash bis über 31 Dollar bei Claude Fable 5.
URLs: