Neue Ansätze zur Verbesserung der Effizienz großer Sprachmodelle durch lernbare Multiplikatoren

Kategorien:

No items found.

Freigegeben:

January 10, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Der schnelle Überblick:

Herkömmliches Training großer Sprachmodelle (LLMs) führt oft zu suboptimalen Skalierungen der Gewichtsmatrizen aufgrund eines "Noise-WD-Gleichgewichts".
Dieser Zustand wird durch das Zusammenspiel von stochastischem Gradientenrauschen, das das Wachstum der Matrizen fördert, und Weight Decay, das es begrenzt, verursacht.
Die Skalierung der Gewichtsmatrizen wird dadurch primär von Hyperparametern und nicht von den Daten bestimmt, was die Modellleistung beeinträchtigen kann.
"Learnable Multipliers" (LRM) bieten eine Lösung, indem sie die Reparametrisierung von Gewichten mit lernbaren Skalierungsfaktoren ermöglichen.
Diese Multiplikatoren passen die Skalierung der Matrizen dynamisch an die Daten an, was zu reicheren und vielfältigeren Merkmalsrepräsentationen führt.
Die Methode zeigt konsistente Leistungsverbesserungen über verschiedene LLM-Architekturen und Optimierer hinweg, vergleichbar mit dem Wechsel von Adam zu Muon.
LRMs reduzieren den Bedarf an umfangreicher Hyperparameter-Abstimmung, insbesondere für Forward- und Weight-Decay-Multiplikatoren.
Die Leistungssteigerungen sind besonders ausgeprägt bei komplexen Denkaufgaben (z.B. BBH, MATH lvl5, GSM8K), während wissensbasierte Benchmarks moderat profitieren.
Die Integration von LRMs hat keine negativen Auswirkungen auf die Inferenzgeschwindigkeit oder den Speicherverbrauch.

Als Senior Specialist Journalist und Analyst für Mindverse beleuchten wir heute eine aktuelle Entwicklung im Bereich der Künstlichen Intelligenz, die das Potenzial hat, die Effizienz und Leistungsfähigkeit großer Sprachmodelle (LLMs) maßgeblich zu beeinflussen: Die Einführung von "Learnable Multipliers" zur Entkopplung der Skalierung von Sprachmodell-Matrixebenen von traditionellen Hyperparameter-Beschränkungen.

Die Herausforderung: Das "Noise-WD-Gleichgewicht" in LLMs

Das Training von Large Language Models (LLMs) ist ein komplexer Prozess, der oft den Einsatz von Techniken wie Weight Decay (WD) erfordert. WD wird standardmäßig auf Matrixebenen angewendet, um das Wachstum der Gewichtsmatrizen zu kontrollieren und die Stabilität des Trainings zu gewährleisten. Frühere Forschungsarbeiten haben gezeigt, dass stochastisches Gradientenrauschen eine braun'sche Expansion der Gewichtsmatrizen induziert, deren Wachstum durch WD ausgeglichen wird. Dies führt zu einem sogenannten "Noise-WD-Gleichgewicht" mit einer bestimmten Gewichts-Norm (||W||).

Die Crux dieses Gleichgewichts besteht darin, dass die Norm der Gewichtsmatrizen nicht primär durch die Daten und die optimalen Repräsentationen bestimmt wird, die das Modell lernen soll, sondern vielmehr durch die Optimierungshyperparameter wie Lernrate (η) und Weight Decay (λ). Die Skalierung der Gewichte wird somit zu einem Artefakt des Trainingsverfahrens, das die Fähigkeit des Modells, die für die Trainingsdaten optimale Skalierung zu erlernen, beeinträchtigen kann. Dies kann zu einer Suboptimalität der gelernten Features führen und die Gesamtleistung des Modells limitieren.

Die Lösung: Lernbare Multiplikatoren (Learnable Multipliers – LRM)

Um dieses Problem anzugehen, wurde ein innovativer Ansatz namens "Learnable Multipliers" (LRM) vorgeschlagen. Das Kernprinzip besteht darin, die Modellgewichte neu zu parametrisieren, indem lernbare Skalierungsfaktoren eingeführt werden. Anstatt die Skalierung durch das "Noise-WD-Gleichgewicht" festzulegen, können diese Multiplikatoren die optimale Skalierung auf datengetriebene Weise erlernen.

Funktionsweise und Arten von Multiplikatoren

Die Methode sieht vor, dass ein lernbarer Skalar-Multiplikator an die gesamte Gewichtsmatrix angehängt wird. Dies ermöglicht es dem Modell, eine globale, datenadaptive Skalierung zu finden. Darüber hinaus wird argumentiert, dass auch individuelle Zeilen- und Spaltennormen ähnlichen Einschränkungen unterliegen. Um deren Skalierung zu befreien, werden lernbare Multiplikatoren pro Zeile und pro Spalte eingeführt. Diese granulare Anpassung ermöglicht eine feinere Steuerung der Skalierung innerhalb der Matrixebenen.

Ein wesentlicher Vorteil dieser Multiplikatoren liegt in der Art und Weise, wie sie Gradienten akkumulieren. Zeilen-/Spalten-Multiplikatoren sammeln Gradienten über die jeweilige Spalte/Zeile der Gradientenmatrix an, während ein Skalar-Multiplikator Gradienten über die gesamte Matrix summiert. Diese zusätzliche Mittelung reduziert das Gradientenrauschen in den Multiplikatoren, was erklärt, warum sie keine rauschgetriebene braun'sche Expansion erfahren, die durch Weight Decay ausgeglichen werden müsste.

Abgrenzung zu bestehenden Ansätzen

LRMs können als eine lernbare und ausdrucksstärkere Verallgemeinerung von µP-Multiplikatoren betrachtet werden. Während µP-Multiplikatoren feste Skalierungsregeln in Bezug auf Modellabmessungen verwenden und oft eine aufwendige Abstimmung erfordern, ermöglichen LRMs dem Modell, seine optimale Skalierung dynamisch zu finden. Dies reduziert den Rechenaufwand für die Multiplikator-Abstimmung erheblich.

Es ist zu beachten, dass lernbare Multiplikatoren in Teilen bereits in modernen LLM-Architekturen, wie beispielsweise in den lernbaren Gewichten von RMSNorm, zum Einsatz kommen. Diese können als Spalten-Multiplikatoren der ersten linearen Schicht in einem Block interpretiert werden. Die vorliegende Forschung erweitert diesen Gedanken, indem sie Multiplikatoren auf weitere Teile des Modells anwendet und so zusätzliche Leistungsverbesserungen erzielt.

Empirische Validierung und Ergebnisse

Die Wirksamkeit von Learnable Multipliers wurde in umfangreichen Experimenten validiert, unter anderem mit dem Falcon-H1-0.5B-Architekturmodell. Die Ergebnisse zeigen eine Reihe signifikanter Vorteile:

Verbesserte Merkmalsrepräsentationen und Skalierungsanpassung

Experimente belegen, dass Matrixebenen ohne lernbare Multiplikatoren Schwierigkeiten haben, ihre Skalierung optimal an die Daten anzupassen, insbesondere unter starkem Optimierungsdruck. Die Einführung von LRMs ermöglicht es den Modellen, eine reichere und vielfältigere Skalierungsverteilung über verschiedene Residualblöcke und interne Features hinweg zu erlernen. Dies manifestiert sich in einer stabileren Leistung über einen breiten Bereich von Hyperparameter-Einstellungen hinweg.

Leistungssteigerung bei Downstream-Aufgaben

Die Anwendung von LRMs führt zu einer konsistenten Leistungssteigerung bei Downstream-Evaluierungen. Diese Verbesserung ist vergleichbar mit dem Wechsel von einem Optimierer wie Adam zu Muon, und sie ist additiv, d.h., LRMs verbessern die Leistung von Muon ebenso wie die von Adam. Dies deutet darauf hin, dass das "Noise-WD-Gleichgewicht" ein allgemeines Phänomen ist, das verschiedene Optimierungsalgorithmen betrifft, und LRMs eine universelle Lösung bieten, um diesem zu entkommen.

Interessanterweise zeigen die Leistungssteigerungen eine ungleichmäßige Verteilung über verschiedene Modellfähigkeiten. Während wissensbezogene Benchmarks (z.B. ARC-C, MMLU) moderate Verbesserungen erfahren, sind die Zuwächse bei denkbezogenen Aufgaben (z.B. BBH, MATH lvl5, GSM8K) deutlich ausgeprägter. Dies könnte darauf hindeuten, dass die Befreiung der Skalierung von Matrixebenen bestimmte Arten von gelernten Schaltkreisen, die für komplexes Denken entscheidend sind, stärker verbessert.

Reduzierter Abstimmungsaufwand

Ein weiterer praktischer Vorteil von LRMs ist die Reduzierung des Bedarfs an umfangreicher Hyperparameter-Abstimmung. Insbesondere der Aufwand für die Abstimmung von Forward- und Weight-Decay-Multiplikatoren entfällt, da die lernbaren Multiplikatoren die optimalen Skalen automatisch anpassen. Die Abstimmung der Lernraten-Multiplikatoren bleibt jedoch weiterhin wichtig für die optimale Leistung.

Umgang mit Architektursymmetrien

Die Einführung lernbarer Multiplikatoren kann zu Instabilitäten führen, die durch Architektursymmetrien verursacht werden. Multiplikative Symmetrien (z.B. Produkt von Queries und Keys in der Aufmerksamkeitsberechnung) und Normalisierungs-Symmetrien (z.B. Skalierung von Residuals) können zu einem ungebundenen Wachstum von Parametern führen. Eine effektive Lösung hierfür ist die Anwendung eines kleinen Weight Decay auf die Multiplikatoren selbst, was sich als einfach und wirksam erwiesen hat.

Skalierung mit Modellbreite

Experimente zur Skalierung mit der Modellbreite zeigen, dass die Normen der Matrixebenen über verschiedene Modellbreiten hinweg nahezu konstant bleiben. Die lernbaren Multiplikatoren passen sich automatisch an die Breite an und erlernen die erforderliche Skalierung, was zu stabilen Aktivierungsnormen führt. Dies hat auch Implikationen für µP-Skalierungsregeln, da das "Noise-WD-Gleichgewicht" die Annahmen klassischer µP-Ansätze beeinflusst.

Gradient Clipping

Die Interaktion von LRMs mit Gradient Clipping wurde ebenfalls untersucht. Es zeigte sich, dass ein anfänglich beobachteter negativer Effekt auf die Leistung darauf zurückzuführen war, dass Gradienten von Multiplikatoren zu großen Gradientennormen führten, die unnötigerweise alle Parameter beschnitten. Das Ausschließen der Multiplikatoren aus der Berechnung der globalen Gradientennorm löste dieses Problem und führte zu einer signifikant besseren Leistung.

Implikationen für die Praxis und zukünftige Forschung

Die Ergebnisse legen nahe, dass die Reparametrisierung von Matrixgewichten mit lernbaren Multiplikatoren einen universellen Weg darstellt, die Pretraining-Leistung zu verbessern, ohne die Inferenzgeschwindigkeit oder den Speicherbedarf zu beeinträchtigen. Dies ist ein entscheidender Faktor für B2B-Anwendungen, bei denen Effizienz und Leistung von großer Bedeutung sind.

Dennoch bleiben wichtige Fragen offen. Eine tiefere mechanistische Untersuchung der Unterschiede zwischen Matrix- und Skalar-/Vektor-Dynamiken sowie die Entwicklung umfassender Skalierungsregeln, die die Präsenz lernbarer Multiplikatoren berücksichtigen, sind Bereiche für zukünftige Forschung. Ebenso ist die detaillierte Untersuchung, wie lernbare Multiplikatoren verschiedene Modellfähigkeiten beeinflussen und ob sie spezifische „Schaltkreise“ im Modell verbessern, von großem Interesse.

Zusammenfassend lässt sich festhalten, dass das Konzept der Learnable Multipliers eine vielversprechende Methode darstellt, um eine grundlegende Einschränkung im Training von LLMs zu überwinden. Durch die Befreiung der Skalierung von Matrixebenen von hyperparameterbedingten Gleichgewichten können Modelle robustere, datenadaptive Repräsentationen erlernen und somit eine verbesserte Leistung erzielen. Dies könnte einen neuen Standard im LLM-Training etablieren und die Entwicklung leistungsfähigerer KI-Systeme vorantreiben.

Bibliography: - Velikanov, M., Chahed, I., Zuo, J., Rhaiem, D. E., Belkada, Y., & Hacid, H. (2026). Learnable Multipliers: Freeing the Scale of Language Model Matrix Layers. arXiv preprint arXiv:2601.04890. - AI Research Roundup. (2026, January 9). Learnable Multipliers for Scaling LLM Matrices [Video]. YouTube. - Chahed, I. (2026, January 9). Learnable Multipliers: Freeing the Scale of Language Model Matrix Layers. LinkedIn. - Velikanov, M. (2026, January 9). Happy to share our new arXiv preprint: Learnable Multipliers: Freeing the Scale of Language Model Matrix Layers. LinkedIn. - alphaXiv. (n.d.). Freeing the Scale of Language Model Matrix Layers. Retrieved from https://alphaxiv.org/resources/2601.04890 - Liner. (2026, January 8). Learnable Multipliers: Freeing the Scale of Language Model Matrix Layers. Retrieved from https://liner.com/review/learnable-multipliers-freeing-scale-language-model-matrix-layers