Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Als Senior Specialist Journalist und Analyst für Mindverse beleuchten wir heute eine aktuelle Entwicklung im Bereich der Künstlichen Intelligenz, die das Potenzial hat, die Effizienz und Leistungsfähigkeit großer Sprachmodelle (LLMs) maßgeblich zu beeinflussen: Die Einführung von "Learnable Multipliers" zur Entkopplung der Skalierung von Sprachmodell-Matrixebenen von traditionellen Hyperparameter-Beschränkungen.
Das Training von Large Language Models (LLMs) ist ein komplexer Prozess, der oft den Einsatz von Techniken wie Weight Decay (WD) erfordert. WD wird standardmäßig auf Matrixebenen angewendet, um das Wachstum der Gewichtsmatrizen zu kontrollieren und die Stabilität des Trainings zu gewährleisten. Frühere Forschungsarbeiten haben gezeigt, dass stochastisches Gradientenrauschen eine braun'sche Expansion der Gewichtsmatrizen induziert, deren Wachstum durch WD ausgeglichen wird. Dies führt zu einem sogenannten "Noise-WD-Gleichgewicht" mit einer bestimmten Gewichts-Norm (||W||).
Die Crux dieses Gleichgewichts besteht darin, dass die Norm der Gewichtsmatrizen nicht primär durch die Daten und die optimalen Repräsentationen bestimmt wird, die das Modell lernen soll, sondern vielmehr durch die Optimierungshyperparameter wie Lernrate (η) und Weight Decay (λ). Die Skalierung der Gewichte wird somit zu einem Artefakt des Trainingsverfahrens, das die Fähigkeit des Modells, die für die Trainingsdaten optimale Skalierung zu erlernen, beeinträchtigen kann. Dies kann zu einer Suboptimalität der gelernten Features führen und die Gesamtleistung des Modells limitieren.
Um dieses Problem anzugehen, wurde ein innovativer Ansatz namens "Learnable Multipliers" (LRM) vorgeschlagen. Das Kernprinzip besteht darin, die Modellgewichte neu zu parametrisieren, indem lernbare Skalierungsfaktoren eingeführt werden. Anstatt die Skalierung durch das "Noise-WD-Gleichgewicht" festzulegen, können diese Multiplikatoren die optimale Skalierung auf datengetriebene Weise erlernen.
Die Methode sieht vor, dass ein lernbarer Skalar-Multiplikator an die gesamte Gewichtsmatrix angehängt wird. Dies ermöglicht es dem Modell, eine globale, datenadaptive Skalierung zu finden. Darüber hinaus wird argumentiert, dass auch individuelle Zeilen- und Spaltennormen ähnlichen Einschränkungen unterliegen. Um deren Skalierung zu befreien, werden lernbare Multiplikatoren pro Zeile und pro Spalte eingeführt. Diese granulare Anpassung ermöglicht eine feinere Steuerung der Skalierung innerhalb der Matrixebenen.
Ein wesentlicher Vorteil dieser Multiplikatoren liegt in der Art und Weise, wie sie Gradienten akkumulieren. Zeilen-/Spalten-Multiplikatoren sammeln Gradienten über die jeweilige Spalte/Zeile der Gradientenmatrix an, während ein Skalar-Multiplikator Gradienten über die gesamte Matrix summiert. Diese zusätzliche Mittelung reduziert das Gradientenrauschen in den Multiplikatoren, was erklärt, warum sie keine rauschgetriebene braun'sche Expansion erfahren, die durch Weight Decay ausgeglichen werden müsste.
LRMs können als eine lernbare und ausdrucksstärkere Verallgemeinerung von µP-Multiplikatoren betrachtet werden. Während µP-Multiplikatoren feste Skalierungsregeln in Bezug auf Modellabmessungen verwenden und oft eine aufwendige Abstimmung erfordern, ermöglichen LRMs dem Modell, seine optimale Skalierung dynamisch zu finden. Dies reduziert den Rechenaufwand für die Multiplikator-Abstimmung erheblich.
Es ist zu beachten, dass lernbare Multiplikatoren in Teilen bereits in modernen LLM-Architekturen, wie beispielsweise in den lernbaren Gewichten von RMSNorm, zum Einsatz kommen. Diese können als Spalten-Multiplikatoren der ersten linearen Schicht in einem Block interpretiert werden. Die vorliegende Forschung erweitert diesen Gedanken, indem sie Multiplikatoren auf weitere Teile des Modells anwendet und so zusätzliche Leistungsverbesserungen erzielt.
Die Wirksamkeit von Learnable Multipliers wurde in umfangreichen Experimenten validiert, unter anderem mit dem Falcon-H1-0.5B-Architekturmodell. Die Ergebnisse zeigen eine Reihe signifikanter Vorteile:
Experimente belegen, dass Matrixebenen ohne lernbare Multiplikatoren Schwierigkeiten haben, ihre Skalierung optimal an die Daten anzupassen, insbesondere unter starkem Optimierungsdruck. Die Einführung von LRMs ermöglicht es den Modellen, eine reichere und vielfältigere Skalierungsverteilung über verschiedene Residualblöcke und interne Features hinweg zu erlernen. Dies manifestiert sich in einer stabileren Leistung über einen breiten Bereich von Hyperparameter-Einstellungen hinweg.
Die Anwendung von LRMs führt zu einer konsistenten Leistungssteigerung bei Downstream-Evaluierungen. Diese Verbesserung ist vergleichbar mit dem Wechsel von einem Optimierer wie Adam zu Muon, und sie ist additiv, d.h., LRMs verbessern die Leistung von Muon ebenso wie die von Adam. Dies deutet darauf hin, dass das "Noise-WD-Gleichgewicht" ein allgemeines Phänomen ist, das verschiedene Optimierungsalgorithmen betrifft, und LRMs eine universelle Lösung bieten, um diesem zu entkommen.
Interessanterweise zeigen die Leistungssteigerungen eine ungleichmäßige Verteilung über verschiedene Modellfähigkeiten. Während wissensbezogene Benchmarks (z.B. ARC-C, MMLU) moderate Verbesserungen erfahren, sind die Zuwächse bei denkbezogenen Aufgaben (z.B. BBH, MATH lvl5, GSM8K) deutlich ausgeprägter. Dies könnte darauf hindeuten, dass die Befreiung der Skalierung von Matrixebenen bestimmte Arten von gelernten Schaltkreisen, die für komplexes Denken entscheidend sind, stärker verbessert.
Ein weiterer praktischer Vorteil von LRMs ist die Reduzierung des Bedarfs an umfangreicher Hyperparameter-Abstimmung. Insbesondere der Aufwand für die Abstimmung von Forward- und Weight-Decay-Multiplikatoren entfällt, da die lernbaren Multiplikatoren die optimalen Skalen automatisch anpassen. Die Abstimmung der Lernraten-Multiplikatoren bleibt jedoch weiterhin wichtig für die optimale Leistung.
Die Einführung lernbarer Multiplikatoren kann zu Instabilitäten führen, die durch Architektursymmetrien verursacht werden. Multiplikative Symmetrien (z.B. Produkt von Queries und Keys in der Aufmerksamkeitsberechnung) und Normalisierungs-Symmetrien (z.B. Skalierung von Residuals) können zu einem ungebundenen Wachstum von Parametern führen. Eine effektive Lösung hierfür ist die Anwendung eines kleinen Weight Decay auf die Multiplikatoren selbst, was sich als einfach und wirksam erwiesen hat.
Experimente zur Skalierung mit der Modellbreite zeigen, dass die Normen der Matrixebenen über verschiedene Modellbreiten hinweg nahezu konstant bleiben. Die lernbaren Multiplikatoren passen sich automatisch an die Breite an und erlernen die erforderliche Skalierung, was zu stabilen Aktivierungsnormen führt. Dies hat auch Implikationen für µP-Skalierungsregeln, da das "Noise-WD-Gleichgewicht" die Annahmen klassischer µP-Ansätze beeinflusst.
Die Interaktion von LRMs mit Gradient Clipping wurde ebenfalls untersucht. Es zeigte sich, dass ein anfänglich beobachteter negativer Effekt auf die Leistung darauf zurückzuführen war, dass Gradienten von Multiplikatoren zu großen Gradientennormen führten, die unnötigerweise alle Parameter beschnitten. Das Ausschließen der Multiplikatoren aus der Berechnung der globalen Gradientennorm löste dieses Problem und führte zu einer signifikant besseren Leistung.
Die Ergebnisse legen nahe, dass die Reparametrisierung von Matrixgewichten mit lernbaren Multiplikatoren einen universellen Weg darstellt, die Pretraining-Leistung zu verbessern, ohne die Inferenzgeschwindigkeit oder den Speicherbedarf zu beeinträchtigen. Dies ist ein entscheidender Faktor für B2B-Anwendungen, bei denen Effizienz und Leistung von großer Bedeutung sind.
Dennoch bleiben wichtige Fragen offen. Eine tiefere mechanistische Untersuchung der Unterschiede zwischen Matrix- und Skalar-/Vektor-Dynamiken sowie die Entwicklung umfassender Skalierungsregeln, die die Präsenz lernbarer Multiplikatoren berücksichtigen, sind Bereiche für zukünftige Forschung. Ebenso ist die detaillierte Untersuchung, wie lernbare Multiplikatoren verschiedene Modellfähigkeiten beeinflussen und ob sie spezifische „Schaltkreise“ im Modell verbessern, von großem Interesse.
Zusammenfassend lässt sich festhalten, dass das Konzept der Learnable Multipliers eine vielversprechende Methode darstellt, um eine grundlegende Einschränkung im Training von LLMs zu überwinden. Durch die Befreiung der Skalierung von Matrixebenen von hyperparameterbedingten Gleichgewichten können Modelle robustere, datenadaptive Repräsentationen erlernen und somit eine verbesserte Leistung erzielen. Dies könnte einen neuen Standard im LLM-Training etablieren und die Entwicklung leistungsfähigerer KI-Systeme vorantreiben.
Bibliography: - Velikanov, M., Chahed, I., Zuo, J., Rhaiem, D. E., Belkada, Y., & Hacid, H. (2026). Learnable Multipliers: Freeing the Scale of Language Model Matrix Layers. arXiv preprint arXiv:2601.04890. - AI Research Roundup. (2026, January 9). Learnable Multipliers for Scaling LLM Matrices [Video]. YouTube. - Chahed, I. (2026, January 9). Learnable Multipliers: Freeing the Scale of Language Model Matrix Layers. LinkedIn. - Velikanov, M. (2026, January 9). Happy to share our new arXiv preprint: Learnable Multipliers: Freeing the Scale of Language Model Matrix Layers. LinkedIn. - alphaXiv. (n.d.). Freeing the Scale of Language Model Matrix Layers. Retrieved from https://alphaxiv.org/resources/2601.04890 - Liner. (2026, January 8). Learnable Multipliers: Freeing the Scale of Language Model Matrix Layers. Retrieved from https://liner.com/review/learnable-multipliers-freeing-scale-language-model-matrix-layersLernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen