Optimierung der Quantisierung großer Reasoning Models durch neue Ansätze

Kategorien:

No items found.

Freigegeben:

February 9, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Der schnelle Überblick

Die Quantisierung großer Reasoning Models (LRMs) ist entscheidend für effiziente KI-Anwendungen.
Traditionelle Post-Training Quantisierung (PTQ) ist für allgemeine Large Language Models (LLMs) optimiert, zeigt aber bei LRMs und niedrigen Bit-Tiefen Schwächen.
Ein neuer Ansatz, QuantLRM, nutzt Fine-Tuning-Signale, um die Gewichtungsaktualisierungen während des Trainings zu analysieren.
Die Hypothese "Protecting Both Ends" besagt, dass kleinste und größte Gewichtungsaktualisierungen während des Fine-Tunings am wichtigsten sind.
QuantLRM verbessert die Quantisierungsleistung von LRMs signifikant, insbesondere bei 3-Bit-Quantisierung, und ist mit bestehenden Infrastrukturen kompatibel.
Auch für nicht-gefintunte LRMs kann QuantLRM durch Pseudo-Fine-Tuning effektive Signale gewinnen.

Die fortschreitende Entwicklung von Künstlicher Intelligenz, insbesondere im Bereich der Large Reasoning Models (LRMs), stellt Unternehmen vor die Herausforderung, diese komplexen Modelle effizient einzusetzen. Ein zentraler Aspekt hierbei ist die Quantisierung, eine Technik, die darauf abzielt, die Größe und den Rechenaufwand von Modellen zu reduzieren, ohne deren Leistungsfähigkeit signifikant zu beeinträchtigen. Die jüngsten Fortschritte in diesem Feld, insbesondere die Einführung von Methoden wie QuantLRM, eröffnen neue Perspektiven für die Optimierung von LRMs in B2B-Anwendungen.

Herausforderungen bei der Quantisierung großer Reasoning Models

Große Sprachmodelle (LLMs) und insbesondere LRMs sind aufgrund ihrer Größe und Komplexität ressourcenintensiv. Die Komprimierung dieser Modelle durch Quantisierung ist daher von großer Bedeutung für ihre praktische Anwendbarkeit. Bestehende Methoden der Post-Training Quantisierung (PTQ), wie AWQ oder GPTQ, wurden primär für allgemeine LLMs entwickelt. Eine aktuelle Analyse (Zhang et al., 2025; Liu et al., 2025) zeigt jedoch, dass diese Methoden bei der Quantisierung von LRMs, insbesondere bei niedrigen Bit-Tiefen wie 3-Bit (W3A16), an ihre Grenzen stoßen. Dies liegt daran, dass LRMs oft umfangreiche Fine-Tuning-Prozesse durchlaufen, deren immanente Informationen von traditionellen PTQ-Ansätzen ungenutzt bleiben.

Die Herausforderung besteht darin, die "Spuren" des Fine-Tunings, also die Gewichtungsaktualisierungen, effektiv für die Quantisierung zu nutzen. Diese Aktualisierungen können Aufschluss über die Wichtigkeit einzelner Gewichte für die nachfolgende Aufgabe geben (Goel et al., 2025).

QuantLRM: Ein neuer Ansatz durch Fine-Tuning-Signale

Ein neuer Forschungsansatz, bekannt als QuantLRM, zielt darauf ab, diese Lücke zu schließen. QuantLRM nutzt die während des reasoning-motivierten Fine-Tunings entstehenden Gewichtungsaktualisierungen als wichtige Signale für die Quantisierung von LRMs. Die zentrale Hypothese hinter QuantLRM ist das Prinzip des "Protecting Both Ends". Dieses besagt, dass sowohl die kleinsten als auch die größten Gewichtungsaktualisierungen während des Fine-Tunings eine höhere Bedeutung haben als Aktualisierungen mittlerer Größe. Gewichte mit extrem kleinen Änderungen könnten für die allgemeinen Fähigkeiten des Modells (z.B. linguistische und instruktionsfolgende Fähigkeiten) entscheidend sein, während große Änderungen auf eine hohe Relevanz für die spezifische Fine-Tuning-Aufgabe hindeuten.

Methodik und Hypothesenvalidierung

QuantLRM validiert diese Hypothese durch experimentelle Untersuchungen. Dabei wird festgestellt, dass die reine Größe der Gewichtungsaktualisierungen allein nicht ausreicht. Stattdessen werden einfache, eingeschränkte quadratische Funktionen auf die Gewichtungsaktualisierungen angewendet, um beide Enden des Spektrums (kleinste und größte Aktualisierungen) zu schützen. Zusätzlich wird die Anzahl der Null-Gewichtungsaktualisierungen pro Kanal berücksichtigt, um eine effektivere Kanalwichtigkeit zu berechnen als dies mit Aktivierungs- oder Zweitordnungs-Informationen möglich wäre.

Die Kanalwichtigkeitswerte werden anschließend in die Quantisierungs-Verlustfunktion als Skalierungsfaktoren integriert, und ein optimaler Parameter wird gesucht, um den Verlust zu minimieren. Dieser Ansatz ermöglicht es QuantLRM, auch bei minimaler Anpassung an verschiedene Modelle, eine hohe Reasoning-Performance nach der Quantisierung zu erzielen.

Anwendbarkeit und Pseudo-Fine-Tuning

Ein wesentlicher Vorteil von QuantLRM ist seine breite Anwendbarkeit. Es unterstützt nicht nur explizit gefintunte LRMs (wie solche, die mittels Supervised Fine-Tuning (SFT), Direct Preference Optimization (DPO) oder Reinforcement Learning (RL) trainiert wurden), sondern auch Modelle, für die keine vor-gefintunten Checkpoints verfügbar sind. In solchen Fällen kann QuantLRM durch ein vereinfachtes "Pseudo-Fine-Tuning" effektive Signale generieren, was die Praktikabilität der Methode erheblich steigert.

Experimentelle Ergebnisse und Leistungsbewertung

Die Forscher haben QuantLRM an verschiedenen gefintunten LRMs über vier Reasoning-Benchmarks (AIME-120, FOLIO, zeitliche Sequenzen von BIG-Bench Hard und GPQA-Diamond) getestet. Die Ergebnisse zeigen, dass QuantLRM die stärksten PTQ-Baselines bei der 3-Bit-Quantisierung (W3A16) konsistent übertrifft. Beispielsweise wurde eine durchschnittliche Verbesserung von 6,55 % bei einem RL-gefintunten Modell und mindestens 1,65 % bei mehreren SFT-LRMs erzielt. Diese Verbesserungen sind besonders bemerkenswert, da QuantLRM mit einem der kleinsten Kalibrierungsdatensätze auskommt.

Die Methode ist zudem kompatibel mit bestehenden Inferenz-Engines wie vLLM und dem AWQ-Kernel, was eine vergleichbare Geschwindigkeitssteigerung zu den modernsten Quantisierungsmethoden ermöglicht.

Ablationsstudien und Optimierung

Umfassende Ablationsstudien haben die Bedeutung jedes einzelnen QuantLRM-Bestandteils beleuchtet. Es zeigte sich, dass die explizite Berücksichtigung von Null-Gewichtungsaktualisierungen und das Prinzip des "Protecting Both Ends" entscheidend für die Leistungsfähigkeit sind. Insbesondere die Behandlung von Null-Aktualisierungen, indem sie beim Anpassen der quadratischen Funktionen ausgeschlossen und ihre Häufigkeit im Kanal gezählt wird, führte zu einer signifikanten Verbesserung der durchschnittlichen Punktzahl.

Effizienz und weitere Anwendungen

QuantLRM erfordert einen geringen einmaligen Vorbereitungsaufwand für die Berechnung der Gewichtungsaktualisierungen und deren Mapping. Dieser Aufwand ist offline und beeinflusst die Inferenzgeschwindigkeit nicht. Die Suchzeit für optimale Skalierungsfaktoren ist vergleichbar mit anderen Methoden, und die Inferenzlatenz ist identisch, da derselbe AWQ-Kernel verwendet wird. Dies macht QuantLRM zu einer effizienten Methode, die eine deutlich höhere Reasoning-Genauigkeit nach der Quantisierung liefert.

Auch bei der 4-Bit-Quantisierung (W4A16) erweist sich QuantLRM als wettbewerbsfähig, obwohl hier andere PTQ-Methoden bereits hohe Leistungsniveaus erreichen. Dies unterstreicht die Robustheit und Vielseitigkeit von QuantLRM als "sichere Standardlösung" über verschiedene Bit-Tiefen hinweg.

Fazit

QuantLRM stellt einen wichtigen Fortschritt in der Quantisierung von Large Reasoning Models dar. Durch die innovative Nutzung von Fine-Tuning-Signalen und dem Prinzip des "Protecting Both Ends" gelingt es, die Leistung von LRMs nach der Quantisierung, insbesondere bei niedrigen Bit-Tiefen, signifikant zu verbessern. Die Kompatibilität mit bestehenden Infrastrukturen und die Möglichkeit des Pseudo-Fine-Tunings für nicht-gefintunte Modelle erweitern die Anwendungsbereiche erheblich. Diese Entwicklungen sind von großer Relevanz für Unternehmen, die leistungsstarke und gleichzeitig ressourceneffiziente KI-Modelle in ihren B2B-Lösungen einsetzen möchten.

Bibliography * [2602.02581] QuantLRM: Quantization of Large Reasoning Models via Fine-Tuning Signals. (2026). Abgerufen von https://www.arxiv.org/abs/2602.02581 * [PDF] Quantization of Large Reasoning Models via Fine-Tuning Signals. (2026). Abgerufen von https://www.arxiv.org/pdf/2602.02581 * The Impact of Quantization on Large Reasoning Model ... - NeurIPS. (n.d.). Abgerufen von https://neurips.cc/virtual/2025/126555 * QLoRA: Efficient Finetuning of Quantized LLMs. (2024). Abgerufen von https://openreview.net/forum?id=OUIFPHEgJU * L4Q: Parameter Efficient Quantization-Aware Fine-Tuning on Large Language Models. (2024). Abgerufen von https://arxiv.org/abs/2402.04902 * Low-Rank Quantization-Aware Training for LLMs. (2024). Abgerufen von https://arxiv.org/abs/2406.06385 * Yunqiang Li's Post - qlora #llms #quantization #efficientai - LinkedIn. (2025). Abgerufen von https://www.linkedin.com/posts/yunqiang-li-6a0878178_qlora-llms-quantization-activity-7408178627319648256-MBuZ * QLoRA: Efficient Finetuning of Quantized LLMs | Tim Dettmers. (2023). Abgerufen von https://www.youtube.com/watch?v=fQirE9N5q_Y * [PDF] QEFT: Quantization for Efficient Fine-Tuning of LLMs - ACL Anthology. (2024). Abgerufen von https://aclanthology.org/2024.findings-emnlp.811.pdf * Quantized reinforcement learning for large models - Facebook. (2025). Abgerufen von https://www.facebook.com/groups/DeepNetGroup/posts/2624443894615143/