Vorgestellt: OpenAI o3 & o3-mini, KI-Reasoning und Code

17/02/2025
Schulte_Markus_300x300px

Markus Schulte

AI Solution Development, Autor

Inhaltsverzeichnis
Teilen
AI Newsletter

Nach der Vorschau von OpenAI aufs o3 Modell im Dezember, veröffentlichte OpenAI jetzt am 31. Januar 2025 die neue Modellreihe o3 und o3-mini. „o2“ wurde dabei vermutlich wegen der möglichen Verwechslungsgefahr mit den Markenrechten von Telefónica o2 übersprungen. Die Modelle sind aktuell nur teilweise verfügbar: o3 ist für fortgeschrittene Programmierung, Mathematik und logisches Denken entwickelt und o3-mini eine kostengünstigere, aber hochleistungsfähige Option.

o3 zeigt im Bereich „Coding“ eine Genauigkeit von 71,7 % auf dem „Bench Verified“-Test und übertrifft damit sein Vorgängermodell o1.

Bei mathematischen Aufgaben wie dem AIME 2024-Mathematiktest erzielt o3-mini (high) sogar 87,3 %, während o1 bei 83,3 % lag.

Leistungsvergleich zwischen OpenAI o3-mini, o1-mini und o1 bei unterschiedlichem Denkleistungsaufwand, einschließlich Konsensabstimmung mit 64 Proben.
Leistungsvergleich zwischen OpenAI o3-mini, o3-mini (high), o1-mini und o1 bei unterschiedlichem Denkleistungsaufwand, einschließlich Konsensabstimmung mit 64 Proben.

Beim ARC (Abstraction and Reasoning Corpus)-Benchmark, in dem o3 mit 88 % über dem menschlichen Durchschnitt von 85 % rangiert. „o3-mini“ wiederum behält essentielle Reasoning-Fähigkeiten bei, fokussiert aber mehr auf Ressourcenoptimierung. So eignet es sich für Projekte, die hohe Leistung zu geringeren Kosten benötigen. Erste Tests zeigen, dass „o3-mini“ in bestimmten Kodierungs-Benchmarks – beispielsweise SWE-bench Verified mit 49,3 % – beachtliche Ergebnisse liefert.

Fairnessbewertung BBQ: o3-mini erzielt ähnliche Leistung wie o1-mini, übertrifft jedoch bei eindeutigen Fragen
Leistungsbewertung von OpenAI o3-mini bei Fairnessbewertung BBQ, mit 82% Genauigkeit bei mehrdeutigen und 96% bei eindeutigen Fragen.

Zur Leistungsseite von o3-mini von OpenAI.

Reasoning-Effort, Token-Limits und Kostenvorteile

Eine zentrale Neuerung ist die Auswahl zwischen drei „Reasoning-Effort“-Stufen: niedrig, mittel und hoch. Damit können Entwickler bestimmen, wie tief das Modell in logische Analysen oder Programmierungsaufgaben einsteigen soll. Die niedrige Stufe ermöglicht besonders schnelle Reaktionen, während die höchste Stufe für präzise und komplexe Aufgaben entwickelt wurde. Zudem integriert OpenAI jetzt eine eingebaute Suche, die relevante Informationen aus dem Internet bezieht und verlinkt. Damit können die Reasoning-Modelle auf aktuelle Daten zugreifen, was bislang nur den traditionellen LLMs vorbehalten war.

Parallel dazu bietet „o3-mini“ stark erweiterte Token-Limits mit bis zu 100.000 Token Output und 200.000 Token Input. Das ist ein deutlicher Sprung gegenüber älteren Modellen und ermöglicht umfangreichere Konversationen. Auch die Kostenstruktur wurde neu gestaltet: Laut OpenAI sind bei „o3-mini“ eine Million Input-Token für nur 1,10 US-Dollar erhältlich, was bis zu 93 % günstiger ist als beim Vorgänger. Diese aggressive Preispolitik reagiert auf Konkurrenzangebote und erlaubt Entwicklern, KI-Anwendungen noch kostengünstiger zu realisieren.

Sicherheitsbewertung, Deliberative Alignment und Verfügbarkeit

Die Risikobewertung für „o3“ und „o3-mini“ stuft beide Modelle in Bereichen wie Modellautonomie, CBRN-Risiken und Überzeugungskraft als „mittleres Risiko“ ein. Tests zeigen, dass o3-mini Personen in bis zu 79 % der Fälle zu Handlungen wie Geldspenden bewegen kann, was auf eine hohe Manipulationsfähigkeit hindeutet. Gleichzeitig schneidet „o3-mini“ bei der Fairnessbewertung teils besser ab als frühere Modelle, indem es diskriminierende Vorurteile stärker reduziert. Allerdings bleiben bei mehrdeutigen Testfragen leichte Schwächen in der Genauigkeit.

Eine wesentliche Entwicklung ist das Konzept Deliberative Alignment, das RLHF (Reinforcement Learning with Human Feedback) erweitert. Dynamische Chain-of-Thought-Prozesse analysieren Eingaben in Echtzeit, um problematische Kontexte zu erkennen und abzufangen. OpenAI möchte damit Fehlanreize und Desinformation weiter eindämmen. Verfügbar sind die Modelle über ChatGPT (inklusive kostenloser Version) und über API-Dienste. „o3-mini“ bietet in der Gratis-Version eine spezielle „Reason“-Option mit bestimmten Ratenlimits. Wer ChatGPT Plus, Team oder Pro nutzt, kann die Reasoning-Effort-Stufe auf „hoch“ einstellen und mit höherem Nachrichtenlimit arbeiten. Pro-Nutzer profitieren sogar von unbegrenztem Zugriff. Über Microsoft Azure OpenAI Service und GitHub Copilot lassen sich „o3“ und „o3-mini“ zudem nahtlos in bestehende Workflows integrieren. Unternehmen erhalten über Enterprise-Lösungen in Kürze Zugriff, sobald die erweiterten Sicherheitsfunktionen in größeren Umgebungen validiert sind.

ChatGPT für Handwerker &
Unternehmen

Hol dir jetzt kostenlos die besten ChatGPT Prompts für lokale Dienstleister wie z.B. Handwerker. Du wirst damit bei Preisverhandlungen siegen können und Gegenargumente entkräften. Viele Prompts und ein breites Spektrum an Themen um deinen Arbeitsalltag zu erleichtern. Lade dir jetzt diese einmalige Prompt-Bibliothek speziell für regional tätige Unternehmen & Handwerksbetriebe herunter.

Webinar Release KI im Handwerk

Du hast eine Frage?