OpenAI hat sein neues Sprachmodell o3 vorgestellt, das insbesondere in den Bereichen Programmierung und Mathematik beachtliche Fortschritte erzielt. Diese Verbesserungen sind maßgeblich auf die Anwendung von verstärkendem Lernen (Reinforcement Learning, RL) während des Trainingsprozesses zurückzuführen. o3 baut auf dem Vorgängermodell o1 auf und übertrifft dessen Leistung deutlich. Der Fokus von o3 liegt auf Aufgaben mit klar definierten Erfolgskriterien, wie dem Lösen mathematischer Gleichungen oder dem Generieren von fehlerfreiem Code.
Im Gegensatz zu herkömmlichen Sprachmodellen, die hauptsächlich auf Reinforcement Learning from Human Feedback (RLHF) basieren, nutzt o3 "echtes" RL, ähnlich dem Ansatz von DeepMinds AlphaGo. Das Modell lernt durch klar definierte Ziele und Szenarien. Anstatt lediglich das nächste Wort in einer Sequenz vorherzusagen, konstruiert o3 Gedankenketten, die zu korrekten Lösungen führen. Dieser Ansatz erklärt die außergewöhnliche Performance des Modells in mathematischen und Programmier-Benchmarks.
OpenAI teilt den RL-Ansatz in zwei Phasen. Die erste Phase, "Train-Time Compute", findet während des initialen Trainings statt. Die Skalierung des verstärkenden Lernens in dieser Phase ist laut OpenAI-Forscher Nat McAleese der Hauptgrund für die deutliche Leistungssteigerung von o3 gegenüber o1. In der zweiten Phase, "Test-Time Compute", wird zusätzliche Rechenleistung während der Modellinferenz bereitgestellt. Dies ermöglicht dem Modell, Gedankenketten besser vorherzusagen und optimale Lösungen zu finden.
Die Kombination von verstärkendem Lernen mit Sprachmodellen ist nicht nur OpenAI vorbehalten. Auch DeepMind verfolgt einen ähnlichen Ansatz mit Gemini 2.0 Flash Thinking. Experten sehen in dieser Entwicklung großes Potenzial, betonen aber gleichzeitig die hohen Anforderungen an die Rechenressourcen. OpenAI arbeitet bereits an einer kleineren Version, o3-mini, die mit weniger Ressourcen auskommen soll, ohne an Leistungsfähigkeit einzubüßen.
Trotz der beeindruckenden Benchmark-Ergebnisse bestehen Herausforderungen für RL-basierte Sprachmodelle. Bei subjektiveren Aufgaben, wie dem Verfassen von Texten oder dem Zusammenfassen von Inhalten, zeigt sich, dass der RL-Ansatz an seine Grenzen stößt. Hier konnte o1 nicht mit GPT-4o mithalten. Ob o3 diese Schwächen ausgleicht, muss sich in weiteren Tests zeigen. Eine weitere Herausforderung besteht darin, die Leistungsfähigkeit der Modelle in komplexen realen Szenarien unter Beweis zu stellen, in denen Probleme oft nicht klar definiert sind und Widersprüche enthalten können.
Die Benchmark-Ergebnisse von o3 sind dennoch beeindruckend. Im Frontier Math Benchmark, der als besonders anspruchsvoll gilt, übertraf o3 die Erwartungen deutlich. Während aktuelle Modelle typischerweise nur zwei Prozent der Frontier-Math-Probleme lösen, erreichte o3 eine Lösungsquote von etwa 25 Prozent. Dieses Ergebnis übertrifft die ursprünglichen Prognosen um ein Vielfaches.
Bibliographie - https://the-decoder.com/openais-o3-model-shows-major-gains-through-reinforcement-learning-scaling/ - https://finance.yahoo.com/news/openai-announces-o3-models-175657971.html - https://news.ycombinator.com/item?id=42473321 - https://www.interconnects.ai/p/openais-o3-the-2024-finale-of-ai - https://openai.com/index/deliberative-alignment/ - https://www.nytimes.com/2024/12/20/technology/openai-new-ai-math-science.html - https://marginalrevolution.com/marginalrevolution/2024/12/the-new-o3-model-from-openai.html - https://arxiv.org/html/2412.14135v1 - https://arcprize.org/blog/oai-o3-pub-breakthrough - https://fasterplease.substack.com/p/up-wingdown-wing-29