Fortschritte in der KI-Optimierung durch Newton-Schulz-Orthogonalisierung und Muon-Varianten

Kategorien:

No items found.

Freigegeben:

April 11, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Die Orthogonalisierung nach Newton-Schulz ist ein zentrales Element in der Optimierung von KI-Modellen und übertrifft häufig traditionelle Gradientenmodifikationen.
Optimierer wie Muon nutzen eine geometrische Herangehensweise, indem sie Gewichtungsmatrizen als kohärente Einheiten behandeln, anstatt einzelne Parameter isoliert zu betrachten.
Hybride Ansätze, die Muon mit anderen Optimierern wie AdamW kombinieren, zeigen in Experimenten eine überlegene Leistung, insbesondere beim Fine-Tuning.
Die "Trust-Region Adaptive Scaling" (TRASMUON) Methode stabilisiert Muon-basierte Optimierung durch RMS-Kalibrierung und energiebasierte Vertrauensbereichs-Clipping, wodurch die Abhängigkeit von Warmlaufphasen reduziert wird.
NorMuon verbessert Muon durch neuronenweise adaptive Lernraten, was zu einer effizienteren und stabileren Optimierung von Large Language Models (LLMs) führt.
NuMuon erweitert Muon um eine nukleare Normbeschränkung auf die Aktualisierungsrichtung, um die Komprimierbarkeit von LLMs zu verbessern und gleichzeitig die Konvergenz beizubehalten.
Die Heavy-Tailed Self-Regularization (HT-SR)-Theorie motiviert HTMuon, Muons Aktualisierungen "Heavy-Tailed" zu gestalten, um die Generalisierungsfähigkeit und Modellqualität zu verbessern.

Im Bereich der künstlichen Intelligenz, insbesondere beim Training von Large Language Models (LLMs) und anderen tiefen neuronalen Netzen, spielen Optimierer eine entscheidende Rolle für die Effizienz, Stabilität und Leistungsfähigkeit der Modelle. Eine aktuelle Diskussion befasst sich mit der Wirksamkeit der Newton-Schulz-Orthogonalisierung im Vergleich zu anderen Gradientenmodifikationen. Diese Analyse konzentriert sich auf die technologischen Grundlagen und die praktischen Implikationen dieser Entwicklungen für B2B-Anwendungen.

Die Rolle der Newton-Schulz-Orthogonalisierung in der KI-Optimierung

Die Newton-Schulz-Orthogonalisierung hat sich als eine robuste Methode zur Verbesserung der Konvergenz und Stabilität von neuronalen Netzen etabliert. Im Gegensatz zu traditionellen Optimierern, die Gradienten in der Regel als unabhängige Zahlen behandeln, betrachtet die Newton-Schulz-Methode Gewichtungsmatrizen als geometrische Objekte. Dies ermöglicht eine präzisere und stabilere Aktualisierung der Modellparameter.

Geometrische Optimierung mit Muon

Der Muon-Optimierer, eine Entwicklung, die auf der Newton-Schulz-Orthogonalisierung basiert, hat sich als vielversprechender Ansatz für das Training von LLMs erwiesen. Muon orthogonalisiert die Momentum-Puffer, wodurch Redundanzen in den Gewichtungsmatrizen reduziert und die Konvergenz verbessert werden. Praktische Anwendungen zeigen, dass Muon die Trainingsgeschwindigkeit signifikant steigern kann, beispielsweise um etwa 35 % bei NanoGPT-Speedruns im Vergleich zu AdamW.

Die Kernidee von Muon besteht darin, die Aktualisierungen so zu gestalten, dass sie geometrische Eigenschaften, wie Normen und Winkel, besser erhalten. Dies führt zu einer stabileren Propagation der Aktualisierungen durch das Netzwerk und kann Probleme wie explodierende Gradienten reduzieren. Ein bemerkenswerter Vorteil ist die Skalierbarkeit der Lernrate: Eine Lernrate, die für ein 124M-Parameter-Modell funktioniert, ist oft auch für ein 1.5B-Parameter-Modell anwendbar, was die Hyperparameter-Abstimmung erheblich vereinfacht.

Allerdings ist Muon nicht universell einsetzbar. Es ist primär für 2D-Parameter wie Gewichtungsmatrizen in Hidden Layers konzipiert. Für 1D-Tensoren wie Embeddings oder Biases ist eine hybride Strategie erforderlich, bei der Muon für 2D-Layer und ein anderer Optimierer, wie AdamW, für 1D-Layer verwendet wird.

Fortschritte und Varianten des Muon-Optimierers

Die Forschung im Bereich der Muon-Optimierer hat zu verschiedenen Weiterentwicklungen geführt, die unterschiedliche Aspekte der Effizienz und Stabilität adressieren.

TrasMuon: Stabilität durch adaptive Skalierung und Vertrauensbereiche

TrasMuon (Trust-Region Adaptive Scaling Muon) wurde entwickelt, um die Sensitivität von Muon-basierten Optimierern gegenüber Schrittgrößen-Hyperparametern und "High-Energy Bursts" zu mindern. Dies wird durch zwei Mechanismen erreicht:

Globale RMS-Kalibrierung: Diese Methode normalisiert die Schrittgrößen über verschiedene Layer und Tensorformen hinweg, um eine bessere Vergleichbarkeit und Stabilität zu gewährleisten.
Energiebasiertes Trust-Region-Clipping: TrasMuon definiert einen Vertrauensbereich, der auf relativen Energieverhältnissen basiert, um Aktualisierungen in einer stabilen Zone zu halten. Dies dämpft selektiv übermäßige Energiekonzentrationen in bestimmten Feature-Achsen, die zu Verlustspitzen führen könnten.

Experimente zeigen, dass TrasMuon insbesondere in den frühen Trainingsphasen eine schnellere Konvergenz und verbesserte Stabilität bietet, selbst in Szenarien ohne Warmlaufphasen. Dies ist besonders relevant für B2B-Anwendungen, bei denen die Robustheit gegenüber wechselnden Trainingsbedingungen und die Reduzierung des Abstimmungsaufwands von großer Bedeutung sind.

NorMuon: Effizienz und Skalierbarkeit durch neuronenweise Normalisierung

NorMuon (Neuron-wise Normalized Muon) adressiert eine Limitation des ursprünglichen Muon-Optimierers: Obwohl Muon die Konditionierung von Aktualisierungen verbessert, kann es zu einer hohen Varianz in den Normen der neuronenspezifischen Aktualisierungen kommen. NorMuon begegnet diesem Problem durch die Beibehaltung von Second-Order-Moment-Statistiken für jedes Neuron und die Anwendung einer zeilenweisen Normalisierung nach der Orthogonalisierung.

Die Integration neuronenweiser adaptiver Lernraten ermöglicht es NorMuon, sowohl niedrige Konditionszahlen als auch gleichmäßige Neuronen-Normen zu erzielen. Dies führt zu einer ausgewogeneren Nutzung der Repräsentationskapazität des Netzwerks. In Experimenten konnte NorMuon eine um 21,74 % höhere Trainingseffizienz im Vergleich zu Adam und eine Verbesserung von 11,31 % gegenüber Muon bei 1.1B LLM-Pretraining-Einstellungen erreichen.

Ein weiterer Fokus von NorMuon liegt auf der effizienten verteilten Implementierung, die mit dem FSDP2-Framework kompatibel ist. Dies ist entscheidend für das Training von LLMs in großem Maßstab, bei dem Speicherbeschränkungen und Recheneffizienz kritische Faktoren sind.

NuMuon: Komprimierbare LLMs durch nukleare Normbeschränkungen

NuMuon (Nuclear-Norm-Constrained Muon) wurde eingeführt, um die Komprimierbarkeit von LLMs zu verbessern, indem eine nukleare Normbeschränkung auf die Aktualisierungsrichtung von Muon angewendet wird. Überraschenderweise zeigen Muon-trainierte Modelle trotz der Verwendung von Full-Rank-Updates eine ausgeprägte Low-Rank-Struktur in ihren Gewichtungsmatrizen. NuMuon nutzt diese Eigenschaft, indem es die Update-Richtung explizit steuert, um eine noch stärkere Low-Rank-Struktur zu fördern.

Dies ist besonders relevant für den Einsatz von LLMs in Umgebungen mit begrenzten Speicher- und Rechenressourcen. NuMuon-trainierte Modelle erreichen eine bis zu 55,9 % bessere Komprimierung-Qualität-Balance (d.h. geringere Perplexität bei fester Komprimierungseinstellung) im Vergleich zu anderen Methoden. Die Methode behält dabei Muons vorteilhaftes Konvergenzverhalten bei.

HTMuon: Heavy-Tailed Spectral Correction

HTMuon (Heavy-Tailed Muon) zielt darauf ab, die Leistung von Muon durch die Anwendung einer "Heavy-Tailed Spectral Correction" zu verbessern. Die Theorie der Heavy-Tailed Self-Regularization (HT-SR) besagt, dass gut trainierte neuronale Netze dazu neigen, "Heavy-Tailed" Empirische Spektraldichten (ESDs) in ihren Gewichtungsmatrizen aufzuweisen, und dass der Grad der "Heavy-Tailedness" mit der Modellqualität korreliert. Muons orthogonale Aktualisierungsregel kann jedoch dazu führen, dass die Gewichts-ESDs weniger "Heavy-Tailed" sind, was die Generalisierungsfähigkeit des Modells einschränken kann.

HTMuon modifiziert die Muon-Aktualisierung, um die Singularwerte der Momentenmatrix auf eine Potenz p (zwischen 0 und 1) zu erhöhen. Dies führt zu "Heavy-Tailed" Aktualisierungen, die die Modellqualität verbessern können. Experimente zeigen, dass HTMuon die Perplexität im LLaMA-Pretraining um bis zu 0,98 im Vergleich zu Muon reduziert. HTMuon kann auch als Plug-in für bestehende Muon-Varianten wie NorMuon oder AdaMuon verwendet werden, um die Leistung weiter zu steigern.

Herausforderungen und Implikationen für B2B-Anwendungen

Die Weiterentwicklung von Optimierern wie Muon und seinen Varianten bietet Geschäftskunden erhebliche Vorteile. Eine höhere Trainingseffizienz bedeutet kürzere Entwicklungszyklen und geringere Rechenkosten. Die verbesserte Stabilität führt zu zuverlässigeren Modellen und reduziert den Aufwand für Hyperparameter-Tuning und Fehlerbehebung. Insbesondere für Unternehmen, die LLMs für kritische Anwendungen entwickeln oder anpassen, ist die Robustheit der Optimierungsalgorithmen von entscheidender Bedeutung.

Dennoch gibt es Herausforderungen. Die Komplexität dieser fortschrittlichen Optimierer erfordert ein tiefes Verständnis ihrer Funktionsweise und ihrer spezifischen Anwendungsbereiche. Die Auswahl des richtigen Optimierers oder einer geeigneten Hybridstrategie hängt stark von der Architektur des neuronalen Netzes, der Art der Daten und den spezifischen Trainingszielen ab. Darüber hinaus erfordert die Implementierung und Skalierung dieser Methoden oft spezialisiertes Fachwissen und eine entsprechende Infrastruktur.

Die kontinuierliche Forschung und Entwicklung in diesem Bereich, wie sie durch die hier diskutierten Varianten von Muon gezeigt wird, ist unerlässlich, um die Leistungsfähigkeit und Anwendbarkeit von KI-Modellen weiter zu verbessern. Für B2B-Entscheider bedeutet dies, die technologischen Fortschritte genau zu verfolgen und in Lösungen zu investieren, die auf diesen innovativen Optimierungsstrategien aufbauen, um wettbewerbsfähig zu bleiben und die Potenziale der KI voll auszuschöpfen.

Fazit

Die Newton-Schulz-Orthogonalisierung und die darauf aufbauenden Optimierer wie Muon, TrasMuon, NorMuon, NuMuon und HTMuon stellen wichtige Fortschritte in der KI-Optimierung dar. Sie bieten Wege zu effizienterem, stabilerem und leistungsfähigerem Training von neuronalen Netzen. Indem sie die geometrische Struktur von Gewichtungsmatrizen berücksichtigen und Mechanismen zur Stabilisierung und Anpassung der Lernraten integrieren, übertreffen sie in vielen Szenarien traditionelle Optimierer. Für B2B-Kunden, die auf fortschrittliche KI-Anwendungen angewiesen sind, bedeutet dies die Möglichkeit, robustere, kosteneffizientere und leistungsfähigere Modelle zu entwickeln und einzusetzen.

Die fortgesetzte Forschung in diesem Bereich wird voraussichtlich weitere Innovationen hervorbringen, die die Grenzen des Machbaren in der künstlichen Intelligenz verschieben. Es ist von entscheidender Bedeutung, diese Entwicklungen aktiv zu verfolgen und zu bewerten, um die bestmöglichen Werkzeuge für die Optimierung von KI-Systemen zu nutzen.

Bibliographie

- KingNish. (2025, December 9). Muon vs MuonClip vs Muon+AdamW for Fine-Tuning. Hugging Face Blog. Retrieved from https://huggingface.co/blog/KingNish/optimizer-part1 - Cheng, P., Zang, J., Li, Q., Ma, L., Jian, J., Chen, B., ... & Tong, W. (2026). TrasMuon: Trust-Region Adaptive Scaling for Orthogonalized Momentum Optimizers. arXiv preprint arXiv:2602.13498. Retrieved from https://arxiv.org/pdf/2602.13498 - Li, Z., Liu, L., Liang, C., Chen, W., & Zhao, T. (2025). NorMuon: Making Muon more efficient and scalable. arXiv preprint arXiv:2510.05491. Retrieved from https://arxiv.org/pdf/2510.05491 - Dolatabadi, H. M., Ajanthan, T., Ramasinghe, S., Koneputugodage, C. P. H., Siriwardhana, S., Shevchenko, V., ... & Long, A. (2026). NuMuon: Nuclear-Norm-Constrained Muon for Compressible LLM Training. arXiv preprint arXiv:2603.03597. Retrieved from https://arxiv.org/pdf/2603.03597 - Pang, T., Fang, Y., Liu, Z., Deng, S., Hsiung, L., Yu, S., & Yang, Y. (2026). HTMuon: Improving Muon via Heavy-Tailed Spectral Correction. arXiv preprint arXiv:2603.10067. Retrieved from https://arxiv.org/pdf/2603.10067 - Baena, J. D. (2025, October 15). The Muon Optimizer Explained: Why Orthogonal Gradients Work. Retrieved from https://josedavidbaena.com/blog/nanochat/muon-optimizer-explained - Jordan, K., Jin, Y., Boza, V., You, J., Cesista, F., Newhouse, L., & Bernstein, J. (2024). Muon: An optimizer for hidden layers in neural networks. Retrieved from https://kellerjordan.github.io/posts/muon/ - Vukrosic. (2025, September 11). vukrosic/analysis-of-muon-optimizer-in-llms. GitHub. Retrieved from https://github.com/vukrosic/analysis-of-muon-optimizer-in-llms - Khaled, A., Ozkara, K., Yu, T., Hong, M., & Park, Y. (2025). MuonBP: Faster Muon via Block-Periodic Orthogonalization. arXiv preprint arXiv:2510.16981. Retrieved from https://arxiv.org/abs/2510.16981 - He, W., Han, K., Zhou, H., Chen, H., Liu, Z., Chen, X., & Wang, Y. (2025). ROOT: Robust Orthogonalized Optimizer for Neural Network Training. arXiv preprint arXiv:2511.20626. Retrieved from https://arxiv.org/pdf/2511.20626