OpenAI hat uns mit dem Codenamen ‘Strawberry‘ lange auf die Folter gespannt, und jetzt ist es endlich so weit. Seit gestern ist offiziell das neue OpenAI o1 Modell bekannt. Während o1 selbst der Öffentlichkeit bisher nicht zur Verfügung steht, wurden bereits zwei Ableger, o1-preview und o1-mini, veröffentlicht und sind live. Alle Infos zum OpenAI o1 Benchmark, einschließlich Preisen, Nutzungslimits und wichtige Tipps fürs Prompting mit o1.
OpenAI o1 hat Chain-of-Thought Methode integriert
Erst gestern haben wir noch über den geplanten Release von ‘Strawberry‘ geschrieben, und heute ist dies schon wieder kalter Kaffee. o1-preview & o1-mini sind die neuen Modelle, welche der Öffentlichkeit nun zur Verfügung stehen. Sie sind für anspruchsvolle Aufgaben entwickelt und können menschliches, logisches Denken nachahmen.
OpenAI o1 nimmt sich vor dem Antworten Zeit und plant einen langen internen Gedankengang. So ist eine komplexere Reasoning-Fähigkeit möglich. Aufgaben in den Bereichen Wissenschaft, Programmierung und Mathematik können besser gelöst werden.
Die Leistungsfähigkeit der neuen Modelle zeigt sich am besten in Zahlen. Auf der Website von OpenAI sind uns folgende Ergebnisse zu OpenAI o1 besonders ins Auge gefallen:
- 89. Perzentil bei Wettbewerbsprogrammierungsfragen (Codeforces).
- Platzierung unter den Top 500 Studenten in den USA bei der Qualifikationsprüfung für die USA-Mathematik-Olympiade (AIME)
- o1 übertrifft die Genauigkeit von menschlichen Doktoranden (PhD Level) beim Benchmark für Physik-, Biologie- und Chemieproblemen (GPQA).
Zusätzlich wurden auch die Ergebnisse bei den AIME-Prüfungen 2024 übertroffen. Während das Vorgängermodell GPT-4o nur 12 % der Probleme löste, erreichte mit einer einzigen Antwort o1 bis zu 83 %.
Noam Brown (OpenAI) arbeitete an der Optimierung der Denkfähigkeiten der o1-Modelle und sagt: “Wir haben diese Modelle darauf trainiert, mehr Zeit zum Nachdenken über Probleme zu verwenden, ähnlich wie es ein Mensch tun würde.“
Gemeint ist hier die Chain-of-Thought-Methode, bei der das System logische Schritte und Verknüpfungen plant, bevor es die finale Antwort generiert. Es werden komplizierte Aufgaben in kleinere logische Schritte unterteilt. Dasselbe Prinzip, wie es ein Mensch bei schwierigen Denkaufgaben tun würde.
Anthropics Opus 3.5 hat aktuell noch keinen Releasetermin, soll aber noch 2024 erscheinen und wird sich im Wettbewerb beweisen müssen.
Anwendungsgebiete mit großem Potenzial
Die Einsatzfelder der neuen KI-Modelle sind vielseitig und könnten im Gesundheitswesen zu Lösungen komplizierter Forschungsfragen führen. Beim Programmieren mit Code kann es die Softwareentwickler unterstützen oder ambitionierten No-Code-Entwicklern sogar kleinere Programme komplett schreiben.
Laut OpenAI können auch wissenschaftliche Daten besser analysiert und umfangreichere Arbeitsabläufe generiert werden. Im Blogartikel werden gezielt Experten und Entwickler in der Pharmaindustrie erwähnt.
Das o1-mini-Modell ist eine preisgünstigere und schnellere Variante als o1-preview oder das noch unveröffentlichte OpenAI o1 Modell. Seine Stärken liegen in der Bearbeitung von Programmieraufgaben. Der Preis ist 80 % günstiger als beim OpenAI o1-preview Modell.
Tipps & Tricks zum Prompting mit OpenAI o1 Modellen
Die neuen OpenAI o1 Modelle benötigen ein etwas anderes Prompting wie wir es gewohnt sind. Anders als bei früheren Modellen ist hier weniger oft mehr. Die künstliche Intelligenz wird weniger verunsichert und die Reasoning-Fähigkeiten werden besser angewendet.
Hier sind die wichtigsten Tipps fürs Prompten mit o1-preview & o1-mini (teilweise nur für die API):
- Formuliere Prompts klar und prägnant: Das Modell ist darauf trainiert, komplexe Aufgaben selbstständig zu durchdenken. Übermäßige Erklärungen können es verwirren.
- Keine Chain-of-Thought Anleitung: o1 führt intern bereits eine schrittweise Analyse durch. Externe Vorgaben könnten diesen Prozess stören.
- Nutze Trennzeichen (z. B. ###, XML-Tags, “””) für Struktur: Dies hilft dem Modell, verschiedene Teile des Inputs klar zu unterscheiden und richtig zu interpretieren.
- Begrenze zusätzlichen Kontext bei RAG: Zu viele Informationen können das Modell überfordern.
- Reserviere Token-Kapazität für das interne Reasoning (mind. 25.000 Token empfohlen): o1 benötigt Raum für seine internen Denkprozesse, bevor es eine Antwort generiert.
- Parameter max_completion_tokens zur Kostenkontrolle: So können die generierten Tokens (inklusive der nicht sichtbaren Reasoning-Tokens) begrenzt werden.
o1 ist besser, als du vielleicht denkst!
Mit der Skalierung von Rechenpower steigt die Leistung von KI-Modellen. Sowohl die Inferenz- als auch die Trainingszeit wird besser, ohne Anzeichen von Verlangsamung. In komplexen mathematischen Aufgaben zeigt o1 Fähigkeiten, die mit denen eines mittelmäßigen, aber nicht völlig inkompetenten Doktors vergleichbar sind – das gabs noch nie!
Die Zuverlässigkeit und das Wissen von o1 überraschen selbst eingefleischte Kritiker. Mathematiker wie Terren Tao, Träger der Fields-Medaille, erkennen die Fortschritte an. Einige Fachleute, darunter Bob McGrew (OpenAIs VP of Research), sprechen sogar über ein möglicherweise vorhandenes Bewusstsein in den komplexen neuronalen Netzen. Mit weiteren Updates und hochskalierter Hardware könnte das Niveau eines brillanten Denkers erreicht werden.
Wie immer: Sicherheit & ethische Aspekte
Mit den neuen Modellen und seinen erweiterten Fähigkeiten steigen auch die Sicherheitsanforderungen. OpenAI hat neue Governance-Maßnahmen eingeführt, um potenzielle Risiken zu reduzieren. In Jailbreaking-Tests erreichte das neue Modell 84 von 100 Punkten, im Vergleich zu nur 22 Punkten bei GPT-4o.
Preis & Limits für o1-preview und o1-mini
Nach nur fünf Tagen hat OpenAI die Limits deutlich erhöht! ChatGPT Plus oder Team-Nutzer profitieren nun von einer 66%igen Erhöhung für das o1-preview-Modell, das von 30 auf 50 Nachrichten pro Woche angehoben wurde. Für die API-Tests gibt es sogar eine 400%ige Steigerung beim o1-preview, das jetzt 100 Anfragen pro Minute unterstützt, im Vergleich zu den vorherigen 20 Anfragen.
Bis zu 400% höhere Limits bei der #OpenAI #o1 Model API und 66% für #ChatGPT Plus/Team! 🎉 Nur 5 Tage nach dem Release.
— AI-Handwerk.de (@AIHandwerk) September 18, 2024
Alle neuen Limits hier: https://t.co/zL0IyH91wp #OpenAI #AI #berlin #münchen #hamburg #01preview #köln #frankfurt #düsseldorf
Preise OpenAI o1-preview & o1-mini
Modell | Preis für Eingabe-Tokens | Preis für Ausgabe-Tokens |
---|---|---|
o1-preview | 15,00 $ / 1M Tokens | 60,00 $ / 1M Tokens |
o1-preview-2024-09-12 | 15,00 $ / 1M Tokens | 60,00 $ / 1M Tokens |
o1-mini | 3,00 $ / 1M Tokens | 12,00 $ / 1M Tokens |
o1-mini-2024-09-12 | 3,00 $ / 1M Tokens | 12,00 $ / 1M Tokens |
Limits OpenAI o1-preview & o1-mini
Plattform | Modell | Limit |
---|---|---|
ChatGPT Plus oder Team | OpenAI o1-preview | 50 Nachrichten pro Woche |
OpenAI o1-mini | 50 Nachrichten pro Tag | |
API | Tier 5 – OpenAI o1-preview | 10,000 Anfragen pro Minute |
Tier 5 – OpenAI o1-mini | 30,000 Anfragen pro Minute | |
Tier 4 – OpenAI o1-preview | 10,000 Anfragen pro Minute | |
Tier 4 – OpenAI o1-mini | 10,000 Anfragen pro Minute | |
Tier 3 – OpenAI o1-preview | 5,000 Anfragen pro Minute | |
Tier 3 – OpenAI o1-mini | 5,000 Anfragen pro Minute |