OpenAI: Mit Evaluierungssuite prüfen, wie gut Modelle Spzifikation einhalten

Mittwoch, März 25, 2026

OpenAI: Mit Evaluierungssuite prüfen, wie gut Modelle Spzifikation einhalten

OpenAI legt in Modell-Spec fest, wie sich die Modelle von OpenAI verhalten sollen. D.h.: wie soll mit widersprüchlichen Anweisungen, mit riskanten Situationen und sensiblen Themen umgegangen werde? Welche Standardverhalten gelten für Modelle in Bezug auf Ehrlichkeit, Sachlichkeit, Persönlichkeit, Stil usw.
Das wurde letztes Jahr vorgestellt (https://model-spec.openai.com/2025-12-18.html). Am 25. März 2026 veröffentlichte OpenAI eine vollständige Version von Model Spec Evals. Dies ist eine neue Evaluierungssuite, die misst, wie gut Modelle die Model Spec befolgen.
Mit dieser Evaluierungssuite stelle OpenAI fest, dass die GPT-5-Modelle die Modellspezifikation konsequenter einhalten als Modelle, die vor GPT-5 veröffentlicht wurden. Die Gesamtkonformitätsraten liegen laut OpenAI

GPT-4o: 72 %
OpenAI o3: 80 %
GPT-5 Instant: 82 %
GPT-5.3 Instant: 84 %
GPT-5.4 Thinking:87 %
GPT-5 Thinking: 89 %

GPT-5 schneidet bei der Evaluierung sogar besser ab als die Nachfolgemodelle.
URLs:

OPenAI Webseite: https://alignment.op … om/model-spec-evals/
githib model spec evals: https://github.com/o … nai/model_spec_evals

Gepostet von Admin um 05:56:29 in Entwicklung, Standardisierung, Forschung
247 Aufruf(e) Kommentar hinzufügen

KI-Infos

Mittwoch, März 25, 2026