OpenAI legt in Modell-Spec fest, wie sich die Modelle von OpenAI verhalten sollen. D.h.: wie soll mit widersprüchlichen Anweisungen, mit riskanten Situationen und sensiblen Themen umgegangen werde? Welche Standardverhalten gelten für Modelle in Bezug auf Ehrlichkeit, Sachlichkeit, Persönlichkeit, Stil usw.
Das wurde letztes Jahr vorgestellt (https://model-spec.openai.com/2025-12-18.html). Am 25. März 2026 veröffentlichte OpenAI eine vollständige Version von Model Spec Evals. Dies ist eine neue Evaluierungssuite, die misst, wie gut Modelle die Model Spec befolgen.
Mit dieser Evaluierungssuite stelle OpenAI fest, dass die GPT-5-Modelle die Modellspezifikation konsequenter einhalten als Modelle, die vor GPT-5 veröffentlicht wurden. Die Gesamtkonformitätsraten liegen laut OpenAI
- GPT-4o: 72 %
- OpenAI o3: 80 %
- GPT-5 Instant: 82 %
- GPT-5.3 Instant: 84 %
- GPT-5.4 Thinking:87 %
- GPT-5 Thinking: 89 %
GPT-5 schneidet bei der Evaluierung sogar besser ab als die Nachfolgemodelle.
URLs:
- OPenAI Webseite: https://alignment.op … om/model-spec-evals/
- githib model spec evals: https://github.com/o … nai/model_spec_evals
