OpenAI hat mit MLE-bench einen neuen Benchmark entwickelt, der die Fähigkeiten von KI-Agenten bei der Entwicklung von Machine-Learning-Lösungen bewertet. Der Test umfasst 75 Kaggle-Wettbewerbe aus verschiedenen Bereichen wie der Verarbeitung natürlicher Sprache und der Bildverarbeitung.
MLE-bench konzentriert sich auf zwei Hauptaspekte: Die Auswahl anspruchsvoller Aufgaben, die die aktuelle ML-Entwicklung repräsentieren, und den Vergleich von KI-Ergebnissen mit menschlicher Leistung. Die 75 Wettbewerbe decken verschiedene Bereiche ab, darunter die Verarbeitung natürlicher Sprache, Computer Vision und Signalverarbeitung. Viele Aufgaben haben reale Anwendungen, wie z. B. die Vorhersage der Verschlechterung von COVID-19-mRNA-Impfstoffen oder die Dekodierung alter Schriftrollen.
OpenAI hat mehrere KI-Modelle und Agenten-Frameworks auf MLE-bench getestet. Das o1-preview-Modell mit dem AIDE-Framework schnitt am besten ab und erreichte bei 16,9 % der Wettbewerbe mindestens eine Bronzemedaille. Dieses Ergebnis übertraf Anthropics Claude 3.5 Sonnet. Die Forscher untersuchten auch, wie sich verschiedene Skalierungsmethoden auf die Leistung von KI-Agenten auswirken. Mehr Versuche pro Wettbewerb verbesserten die Erfolgsraten deutlich. Mit 8 Versuchen verdoppelte sich die Medaillenrate von o1-preview auf 34,1 %. Längere Bearbeitungszeiten führten zu besseren Ergebnissen. GPT-4o steigerte seine Medaillenrate von 8,7 % auf 11,8 %, wenn die Bearbeitungszeit von 24 auf 100 Stunden verlängert wurde. Zusätzliche GPU-Leistung hatte jedoch kaum Auswirkungen auf die Leistung.
Bei der Erstellung von MLE-bench sah sich OpenAI Herausforderungen gegenüber, wie z. B. der potenziellen Verunreinigung durch öffentlich zugängliche Kaggle-Wettbewerbe. Um dies zu beheben, verwendete das Unternehmen einen Plagiatserkenner, um die Agenten-Einreichungen mit den besten Kaggle-Lösungen zu vergleichen, und führte Experimente durch, um die Auswirkungen der Verunreinigung zu überprüfen. OpenAI räumt ein, dass MLE-bench nicht alle Aspekte der KI-Forschung und -Entwicklung abdeckt. Der Benchmark konzentriert sich auf Aufgaben mit klaren Problemstellungen, sauberen Datensätzen und einfachen Bewertungsmetriken. Herausforderungen in der realen Welt sind oft weniger klar definiert. Trotz dieser Einschränkungen sieht OpenAI in MLE-bench ein wertvolles Werkzeug zur Bewertung von Kernkompetenzen im Bereich ML-Engineering. Dazu gehören die Aufbereitung großer multimodaler Datensätze, die Verwaltung langwieriger Trainingsprozesse und das Debugging leistungsschwacher Modelle. Der MLE-bench Benchmark ist auf GitHub verfügbar.
Die neuen o1-Preview- und o1-Mini-Modelle von OpenAI sind die ersten sogenannten "Large Reasoning Models" (LRMs). Diese Modelle führen vor der Erstellung einer Ausgabe interne Denkprozesse durch, um eine Lösung zu planen und iterativ zu verbessern. Dieser Ansatz verbessert zwar die Argumentationsfähigkeit (was sich auch in den Ergebnissen von DevQualityEval widerspiegelt), ist aber mit hohen Kosten verbunden. Die Kosten für LRMs können schnell steigen. In unserem Fall haben wir durchschnittlich etwa 1,79 US-Dollar ausgegeben, um jedes Modell für den DevQualityEval v0.6-Benchmark zu bewerten. Bisher gab es nur einen extremen Ausreißer: Anthropics Claude 3 Opus mit 12,90 US-Dollar aufgrund seines hohen Preises. Das Benchmarking der neuen Modelle von OpenAI kostete uns satte 76,91 US-Dollar für o1-Preview und 8,68 US-Dollar für o1-Mini. Außerdem ist die Inferenzzeit langsamer als der Durchschnitt von 6,9 Sekunden pro Antwort, insbesondere beim o1-Preview-Modell mit 23,3 Sekunden pro Antwort. Das bisher langsamste Modell war Xwin 70B mit 19,9 Sekunden pro Antwort, gefolgt von DeepSeek V2 Coder mit 17,9 Sekunden pro Antwort.
Sowohl o1-Preview als auch o1-Mini schneiden mit 98,6 % bzw. 96,9 % außergewöhnlich gut ab und schlagen damit Claude 3.5 Sonnet (95,5 %), GPT-4o (94,3 %) und DeepSeek V2 Chat (93,6 %). Wie bereits erwähnt, ist der Preisvergleich aufgrund der internen Reasoning-Token von LRMs schwierig. In dieser Hinsicht schlug o1-Mini Claude 3 Opus sowohl in Bezug auf die Punktzahl (96,9 % gegenüber 93,0 %) als auch in Bezug auf den Preis, der sich auf insgesamt 8,68 US-Dollar gegenüber 12,9 US-Dollar belief. o1-Preview ist zwar das insgesamt beste Modell, zeichnet sich aber auch durch seine hohe Ruby-Punktzahl (98,2 %) aus und schlägt damit das zweitbeste Ruby-Modell, bei dem es sich überraschenderweise um GPT-4o (96,5 %) und nicht um o1-Mini handelt.
Obwohl o1-Modelle in Benchmarks hervorragende Ergebnisse erzielen, kann es schwieriger erscheinen, eigene Aufgaben zum Laufen zu bringen. Ich vermute, dass dies auf eine Diskrepanz zwischen realen Eingabeaufforderungen und Eingabeaufforderungen in Benchmarks hindeutet: Letztere zielen darauf ab, nur eindeutige, in sich geschlossene, minimal präsentierte Probleme zu haben, ohne Ratschläge oder Meinungen, wie sie zu lösen sind. Ich erwarte auch, dass sich dieses Problem stark verbessern wird, sobald o1-Modelle ohne ihre derzeitigen Nutzungsobergrenzen eingesetzt werden, die die Entdeckung hochwertiger Eingabeaufforderungen behindern können.
Es ist auch erwähnenswert, dass die Latenz der Antworten von o1-Preview, insbesondere die "Zeit bis zum ersten Token", deutlich höher ist als bei GPT-4o. Dies würde die Verwendung dieser Modelle für einige Anwendungen einschränken. Aber für die interaktive Nutzung in ChatGPT empfand ich dies nicht als großes Ärgernis. Nur o1-Preview ist merklich langsamer; o1-Mini macht seine "Denk"-Zeit durch eine schnellere Token-Inferenz mehr als wett.
OpenAIs o1-Preview zeigt im MLE-bench Benchmark eine beeindruckende Leistung und unterstreicht das Potenzial von KI-Agenten in der ML-Entwicklung. Die Ergebnisse zeigen aber auch die Bedeutung von Skalierung und die Herausforderungen bei der Bewertung komplexer KI-Systeme. MLE-bench bietet eine Grundlage für die zukünftige Forschung und Entwicklung von KI-gestützten ML-Lösungen. Die weitere Erforschung der Möglichkeiten und Grenzen von Modellen wie o1-Preview wird für die Weiterentwicklung der KI-gestützten Softwareentwicklung von entscheidender Bedeutung sein.
OpenAI. (2023). Introducing OpenAI o1-preview. https://openai.com/index/introducing-openai-o1-preview/
Symflower. (2024). OpenAI's o1-preview is the king 👑 of code generation but is super slow and expensive (Deep dives from the DevQualityEval v0.6). https://symflower.com/en/company/blog/2024/dev-quality-eval-v0.6-o1-preview-is-the-king-of-code-generation-but-is-super-slow-and-expensive/
Scale. (2024). First Impressions of OpenAI’s o1. https://scale.com/blog/first-impression-openai-o1
Cathey, G. (2024). Sourcing/Boolean Search Test: OpenAI o1-preview vs. 4o w/Chain-of-Thought Prompt. https://www.linkedin.com/pulse/sourcingboolean-search-test-openai-o1-preview-vs-4o-prompt-cathey-vfpre
Brian Design. (2024, September 17). OpenAI o1 Model is INSANE! This Can Replace Coders with Human like Thinking [Video]. YouTube. https://www.youtube.com/watch?v=7PUXQx0sxgg
Research Graph. (2024). How OpenAI’s O1 Series Stands Out Redefining AI Reasoning. Medium. https://medium.com/@researchgraph/how-openais-o1-series-stands-out-redefining-ai-reasoning-9e499937139e
GeeksforGeeks. (2024). OpenAI o1 AI Model Launched: Details. https://www.geeksforgeeks.org/openai-o1-ai-model-launch-details/
Reddit. (2024). OpenAI o1 vs GPT4o comparison. https://www.reddit.com/r/ChatGPTPro/comments/1ffpswq/openai_o1_vs_gpt4o_comparison/
OpenAI. (2024). o1. https://openai.com/o1/
Omgsogd. (2024). OpenAI o1: A Game-Changer in AI Reasoning. https://omgsogd.com/2024/09/openai-o1-a-game-changer-in-ai-reasoning/