Neue Benchmarks für KI-Modelle und die Leistung von Qwen3-Max-Thinking

Kategorien:

No items found.

Freigegeben:

February 25, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Der schnelle Überblick

Der "Humanity's Last Exam" (HLE) ist ein anspruchsvoller multimodaler Benchmark zur Bewertung von KI-Modellen.
Alibaba Cloud's Qwen3-Max-Thinking-Modell hat auf dem HLE mit Suchfunktionen eine hohe Punktzahl erreicht.
Es gibt unterschiedliche Berichte über die genaue Platzierung von Qwen3-Max-Thinking auf dem HLE-Leaderboard, was die Debatte um Benchmark-Transparenz anheizt.
Qwen3-Max-Thinking zeichnet sich durch adaptive Tool-Nutzung und Test-Time-Scaling aus.
Die Kostenstrukturen und die Open-Weight-Verfügbarkeit der Qwen-Modelle sind wichtige Faktoren für die B2B-Zielgruppe.
Die Diskussion um Benchmark-Ergebnisse erfordert eine kritische Bewertung unabhängiger Leaderboards.

Der "Humanity's Last Exam": Ein neuer Maßstab für KI-Fähigkeiten

Der Bereich der künstlichen Intelligenz (KI) entwickelt sich rasant weiter, und mit dieser Entwicklung wächst auch die Notwendigkeit robuster und aussagekräftiger Bewertungsmaßstäbe. Ein solcher Maßstab, der in den letzten Monaten an Bedeutung gewonnen hat, ist der "Humanity's Last Exam" (HLE). Dieser Benchmark, gemeinsam entwickelt vom Center for AI Safety und Scale AI, soll die Grenzen aktueller KI-Modelle testen und eine präzisere Messung ihrer Fähigkeiten ermöglichen. Der HLE umfasst 2.500 anspruchsvolle, fachübergreifende und multimodale Fragen aus Bereichen wie Mathematik, Geisteswissenschaften und Naturwissenschaften. Er wurde konzipiert, um Benchmark-Sättigung zu vermeiden, ein Problem, bei dem führende Modelle frühere Benchmarks wie MMLU oder GPQA bereits menschliches Niveau erreichen oder übertreffen und diese damit als aussagekräftige Indikatoren für Fortschritt entwerten.

Die Besonderheit des HLE liegt in seinem Design: Die Fragen erfordern oft ein Expertenwissen auf Hochschulniveau und sind so konzipiert, dass sie selbst modernste Modelle herausfordern. Ein signifikanter Anteil der Fragen ist multimodal, was bedeutet, dass Modelle Diagramme oder Abbildungen verstehen müssen, um korrekte Antworten zu liefern. Zudem sind die Fragen präzise und eindeutig formuliert, mit geschlossenen Antworten zur automatischen Auswertung. Um eine Kontamination der Trainingsdaten und "Benchmark-Hacking" zu verhindern, wird zusätzlich ein privater Satz von HLE-Fragen vorgehalten, um periodisch ein Overfitting an den öffentlichen Datensatz zu überprüfen. Eine hohe Genauigkeit auf dem HLE würde demnach belegen, dass eine KI Expertenniveau in hochmodernem wissenschaftlichen Wissen erreicht hat, impliziert jedoch nicht zwangsläufig autonome Forschungsfähigkeiten oder allgemeine künstliche Intelligenz (AGI).

Qwen3-Max-Thinking und seine Leistung auf dem HLE

In diesem Kontext sorgte die Meldung über die Leistung von Alibaba Cloud's Qwen3-Max-Thinking-Modell auf dem HLE für Aufsehen. Berichten zufolge soll Qwen3-Max-Thinking, insbesondere in Kombination mit Suchfunktionen, führende Modelle wie Gemini 3 Pro und GPT-5.2 auf diesem anspruchsvollen Benchmark übertroffen haben. Das Qwen-Team von Alibaba Cloud hat mit Qwen3-Max-Thinking ein proprietäres Sprachmodell vorgestellt, das auf architektonischer Effizienz und agentischer Autonomie basiert, um die Schlussfolgerungsfähigkeiten der Konkurrenz zu erreichen oder zu übertreffen.

Architektonische Innovationen und Fähigkeiten

Die Kerninnovation hinter Qwen3-Max-Thinking ist ein neuartiger Ansatz des "Test-Time Scaling". Im Gegensatz zu traditionellen Inferenzmethoden, die Token linear generieren, nutzt Qwen3 einen "Heavy Mode". Dieses Verfahren ermöglicht es dem Modell, Rechenleistung gegen Intelligenz einzutauschen. Es verwendet eine erfahrungsakkumulierende, mehrstufige Strategie, die menschliches Problemlösen nachahmt. Bei komplexen Anfragen führt das Modell eine iterative Selbstreflexion durch und nutzt einen proprietären "Take-Experience"-Mechanismus, um Erkenntnisse aus früheren Denkprozessen zu destillieren. Dies ermöglicht es dem Modell:

Sackgassen zu identifizieren: Das Modell kann erkennen, wann ein Denkansatz fehlschlägt, ohne ihn vollständig durchlaufen zu müssen.
Rechenleistung zu fokussieren: Es kann die Verarbeitungskapazität auf "ungelöste Unsicherheiten" umleiten, anstatt bekannte Schlussfolgerungen neu abzuleiten.

Diese Effizienzsteigerungen sind messbar und führen zu erheblichen Leistungssteigerungen, ohne die Token-Kosten explodieren zu lassen. Darüber hinaus integriert Qwen3-Max-Thinking adaptive Tool-Nutzungsfähigkeiten. Das Modell kann autonom das passende Werkzeug für die jeweilige Aufgabe auswählen, ohne manuelle Benutzeraufforderung. Es kann nahtlos zwischen verschiedenen Modi wechseln:

Web-Suche & Extraktion: Für Echtzeit-Faktensuche.
Speicher: Zum Speichern und Abrufen benutzerspezifischer Kontexte.
Code-Interpreter: Zum Schreiben und Ausführen von Python-Code für Rechenaufgaben.

Diese Kombination von "Denk-" und "Nicht-Denk-Modi" ist entscheidend für Unternehmensanwendungen, bei denen ein Modell möglicherweise eine Tatsache überprüfen (Suche), eine Projektion berechnen (Code-Interpreter) und dann über die strategische Implikation nachdenken (Denken) muss – alles in einem einzigen Durchlauf. Diese Fähigkeiten tragen dazu bei, Halluzinationen zu mindern, indem das Modell seine Schlussfolgerungen auf überprüfbare externe Daten stützen kann, anstatt sich ausschließlich auf seine Trainingsgewichte zu verlassen.

Benchmark-Ergebnisse und die Debatte um Platzierungen

Alibaba präsentierte Qwen3-Max-Thinking mit überzeugenden Ergebnissen auf verschiedenen Benchmarks. Auf dem HMMT (Harvard-MIT Mathematics Tournament), einem anspruchsvollen Reasoning-Benchmark, erreichte Qwen3-Max-Thinking einen Wert von 98,0 und übertraf damit Gemini 3 Pro (97,5). Der signifikanteste Punkt für Entwickler ist jedoch die Leistung bei agentischer Suche. Auf dem "Humanity's Last Exam" (HLE), der die Leistung bei 3.000 "Google-proof" Fragen auf Graduiertenniveau in Mathematik, Naturwissenschaften, Informatik, Geisteswissenschaften und Ingenieurwesen misst, erzielte Qwen3-Max-Thinking mit Web-Suchwerkzeugen 49,8 Punkte und übertraf damit sowohl Gemini 3 Pro (45,8) als auch GPT-5.2-Thinking (45,5).

Die Veröffentlichung dieser Ergebnisse führte jedoch auch zu einer Diskussion über die Verlässlichkeit und Transparenz von Benchmark-Ergebnissen. Unabhängige Leaderboards, wie das offizielle "Humanity's Last Exam"-Leaderboard von Scale AI, zeigten Qwen3-Max-Thinking nicht in den Top 10, während Gemini 3 Pro mit 37,52 % führte, gefolgt von GPT-5 Pro mit 31,64 % und GPT-5.2 mit 27,80 %. Claude Opus 4.5 belegte den fünften Platz mit 25,20 %. Diese Diskrepanz wirft Fragen auf, wie Unternehmen ihre Benchmark-Ergebnisse präsentieren und wie die Branche mit der Glaubwürdigkeit von Leistungsangaben umgeht. Es wird darauf hingewiesen, dass die Angaben von Alibaba sich auf die Ergebnisse mit Suchfunktionalität beziehen, während die unabhängigen Leaderboards möglicherweise andere Konfigurationen oder den reinen Modellscore ohne externe Tools berücksichtigen. Dies verdeutlicht die Notwendigkeit einer präzisen Definition der Testbedingungen, um Benchmark-Ergebnisse vergleichen zu können.

Die Problematik der Benchmark-Manipulation ist in der KI-Branche ein wiederkehrendes Thema. Unabhängige Leaderboards wie der "Humanity's Last Exam", Artificial Analysis und LiveBench werden daher als entscheidend angesehen, da sie Modelle unter kontrollierten Bedingungen ohne Beteiligung der Anbieter testen. Für Entwickler und Unternehmen wird es zunehmend wichtiger, Modelle selbst zu testen und auf Community-Feedback zu achten, um die tatsächliche Leistung in realen Anwendungsfällen zu bewerten.

Wirtschaftliche Aspekte und Verfügbarkeit

Alibaba Cloud hat Qwen3-Max-Thinking als ein Premium-Angebot positioniert, das über seine API zugänglich ist. Die Preisgestaltung für Input- und Output-Token ist in einigen Fällen aggressiver als bei etablierten Modellen, was darauf hindeutet, dass Alibaba den Markt für Unternehmensanwendungen aktiv adressieren möchte. Darüber hinaus bietet Alibaba Cloud bestimmte erweiterte Funktionen wie den Web Extractor und den Code Interpreter zeitlich begrenzt kostenlos an, um die Akzeptanz zu fördern.

Die Qwen-Modelle, insbesondere die Open-Weight-Varianten wie Qwen3.5-397B-A17B, die auf Hugging Face verfügbar sind, bieten Entwicklern die Möglichkeit, die Modelle herunterzuladen, zu verfeinern und ohne die Beschränkungen von API-Ratenbegrenzungen oder Token-Kosten einzusetzen. Dies ist ein erheblicher Vorteil für Produktions-Workloads und ermöglicht eine größere Flexibilität bei der Anpassung an spezifische Anforderungen. Die MoE-Architektur (Mixture-of-Experts) der Qwen-Modelle macht das Self-Hosting praktischer, da nur ein Bruchteil der Parameter pro Abfrage aktiviert wird, was den Inferenzprozess effizienter gestaltet.

Implikationen für die B2B-Zielgruppe

Für Unternehmen, die KI-Lösungen implementieren möchten, sind die Entwicklungen rund um den HLE und Modelle wie Qwen3-Max-Thinking von großer Relevanz. Sie verdeutlichen mehrere Schlüsselpunkte:

Die Bedeutung robuster Benchmarks: Der HLE markiert einen Schritt hin zu anspruchsvolleren und umfassenderen Benchmarks, die die tatsächlichen Fähigkeiten von KI-Modellen besser widerspiegeln können. Unternehmen sollten bei der Bewertung von KI-Angeboten auf die zugrunde liegenden Benchmarks achten und deren Relevanz für ihre spezifischen Anwendungsfälle prüfen.
Differenzierung durch Reasoning-Fähigkeiten: Modelle, die komplexe Schlussfolgerungen ziehen und adaptive Tool-Nutzung beherrschen, sind für anspruchsvolle Unternehmensaufgaben zunehmend unverzichtbar. Die Fähigkeit, externe Daten zu integrieren und Aufgaben in mehreren Schritten zu lösen, kann die Effizienz und Genauigkeit von KI-Anwendungen erheblich steigern.
Kritische Bewertung von Anbieterangaben: Die unterschiedlichen Berichte über Benchmark-Ergebnisse unterstreichen die Notwendigkeit, Anbieterangaben kritisch zu hinterfragen und unabhängige Verifizierungen zu suchen. Transparenz bei den Testbedingungen ist dabei essenziell.
Die Rolle von Open-Weight-Modellen: Die Verfügbarkeit von Open-Weight-Modellen wie Qwen3.5 bietet Unternehmen eine Alternative zu proprietären Lösungen. Dies kann Vorteile in Bezug auf Kostenkontrolle, Anpassbarkeit und Datensouveränität mit sich bringen.
Die Entwicklung hin zu KI-Agenten: Die Branche bewegt sich von einfachen Chatbots hin zu intelligenten KI-Agenten, die komplexe, mehrstufige Workflows ausführen können. Unternehmen sollten ihre Strategien entsprechend anpassen und Modelle evaluieren, die diese agentischen Fähigkeiten unterstützen.

Zusammenfassend lässt sich sagen, dass der "Humanity's Last Exam" und die darauf erzielten Leistungen von Modellen wie Qwen3-Max-Thinking wichtige Indikatoren für den Fortschritt in der KI-Forschung sind. Für die B2B-Zielgruppe bedeutet dies eine fortlaufende Notwendigkeit, sich über die neuesten Entwicklungen zu informieren, die Leistungsfähigkeit von KI-Modellen objektiv zu bewerten und die strategischen Implikationen für ihre Geschäftsmodelle zu berücksichtigen. Die Debatte um die Genauigkeit von Benchmarks unterstreicht dabei die Bedeutung einer informierten und kritischen Herangehensweise bei der Auswahl und Implementierung von KI-Technologien.

Bibliographie

HowAIWorks.ai Team. (2026, 27. Januar). Qwen3-Max-Thinking: A New Era for Reasoning Models. HowAIWorks.ai.
HowAIWorks.ai Team. (2025, 5. November). Qwen3-Max-Thinking: Perfect Reasoning Scores. HowAIWorks.ai.
Scale AI. (2026, 10. Februar). Humanity's Last Exam.
Scale AI. (2026, 27. Januar). Humanity's Last Exam Text Only (Preview).
Serenities AI. (2026, 20. Februar). Qwen 3.5 Review: 397B Open-Weight Model Benchmarks (2026). Serenities AI.
VentureBeat. (2026, 26. Januar). Qwen3-Max Thinking beats Gemini 3 Pro and GPT-5.2 on Humanity's Last Exam (with search).
ByteBot. (2026, 27. Januar). Qwen3-Max Beats GPT-5.2? Leaderboard Says Otherwise. byteiota.
Wikipedia. (o. J.). Humanity's Last Exam. Abgerufen am 26. Juni 2024.