Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die fortschreitende Entwicklung von Künstlicher Intelligenz, insbesondere im Bereich der Large Reasoning Models (LRMs), stellt Unternehmen vor die Herausforderung, diese komplexen Modelle effizient einzusetzen. Ein zentraler Aspekt hierbei ist die Quantisierung, eine Technik, die darauf abzielt, die Größe und den Rechenaufwand von Modellen zu reduzieren, ohne deren Leistungsfähigkeit signifikant zu beeinträchtigen. Die jüngsten Fortschritte in diesem Feld, insbesondere die Einführung von Methoden wie QuantLRM, eröffnen neue Perspektiven für die Optimierung von LRMs in B2B-Anwendungen.
Große Sprachmodelle (LLMs) und insbesondere LRMs sind aufgrund ihrer Größe und Komplexität ressourcenintensiv. Die Komprimierung dieser Modelle durch Quantisierung ist daher von großer Bedeutung für ihre praktische Anwendbarkeit. Bestehende Methoden der Post-Training Quantisierung (PTQ), wie AWQ oder GPTQ, wurden primär für allgemeine LLMs entwickelt. Eine aktuelle Analyse (Zhang et al., 2025; Liu et al., 2025) zeigt jedoch, dass diese Methoden bei der Quantisierung von LRMs, insbesondere bei niedrigen Bit-Tiefen wie 3-Bit (W3A16), an ihre Grenzen stoßen. Dies liegt daran, dass LRMs oft umfangreiche Fine-Tuning-Prozesse durchlaufen, deren immanente Informationen von traditionellen PTQ-Ansätzen ungenutzt bleiben.
Die Herausforderung besteht darin, die "Spuren" des Fine-Tunings, also die Gewichtungsaktualisierungen, effektiv für die Quantisierung zu nutzen. Diese Aktualisierungen können Aufschluss über die Wichtigkeit einzelner Gewichte für die nachfolgende Aufgabe geben (Goel et al., 2025).
Ein neuer Forschungsansatz, bekannt als QuantLRM, zielt darauf ab, diese Lücke zu schließen. QuantLRM nutzt die während des reasoning-motivierten Fine-Tunings entstehenden Gewichtungsaktualisierungen als wichtige Signale für die Quantisierung von LRMs. Die zentrale Hypothese hinter QuantLRM ist das Prinzip des "Protecting Both Ends". Dieses besagt, dass sowohl die kleinsten als auch die größten Gewichtungsaktualisierungen während des Fine-Tunings eine höhere Bedeutung haben als Aktualisierungen mittlerer Größe. Gewichte mit extrem kleinen Änderungen könnten für die allgemeinen Fähigkeiten des Modells (z.B. linguistische und instruktionsfolgende Fähigkeiten) entscheidend sein, während große Änderungen auf eine hohe Relevanz für die spezifische Fine-Tuning-Aufgabe hindeuten.
QuantLRM validiert diese Hypothese durch experimentelle Untersuchungen. Dabei wird festgestellt, dass die reine Größe der Gewichtungsaktualisierungen allein nicht ausreicht. Stattdessen werden einfache, eingeschränkte quadratische Funktionen auf die Gewichtungsaktualisierungen angewendet, um beide Enden des Spektrums (kleinste und größte Aktualisierungen) zu schützen. Zusätzlich wird die Anzahl der Null-Gewichtungsaktualisierungen pro Kanal berücksichtigt, um eine effektivere Kanalwichtigkeit zu berechnen als dies mit Aktivierungs- oder Zweitordnungs-Informationen möglich wäre.
Die Kanalwichtigkeitswerte werden anschließend in die Quantisierungs-Verlustfunktion als Skalierungsfaktoren integriert, und ein optimaler Parameter wird gesucht, um den Verlust zu minimieren. Dieser Ansatz ermöglicht es QuantLRM, auch bei minimaler Anpassung an verschiedene Modelle, eine hohe Reasoning-Performance nach der Quantisierung zu erzielen.
Ein wesentlicher Vorteil von QuantLRM ist seine breite Anwendbarkeit. Es unterstützt nicht nur explizit gefintunte LRMs (wie solche, die mittels Supervised Fine-Tuning (SFT), Direct Preference Optimization (DPO) oder Reinforcement Learning (RL) trainiert wurden), sondern auch Modelle, für die keine vor-gefintunten Checkpoints verfügbar sind. In solchen Fällen kann QuantLRM durch ein vereinfachtes "Pseudo-Fine-Tuning" effektive Signale generieren, was die Praktikabilität der Methode erheblich steigert.
Die Forscher haben QuantLRM an verschiedenen gefintunten LRMs über vier Reasoning-Benchmarks (AIME-120, FOLIO, zeitliche Sequenzen von BIG-Bench Hard und GPQA-Diamond) getestet. Die Ergebnisse zeigen, dass QuantLRM die stärksten PTQ-Baselines bei der 3-Bit-Quantisierung (W3A16) konsistent übertrifft. Beispielsweise wurde eine durchschnittliche Verbesserung von 6,55 % bei einem RL-gefintunten Modell und mindestens 1,65 % bei mehreren SFT-LRMs erzielt. Diese Verbesserungen sind besonders bemerkenswert, da QuantLRM mit einem der kleinsten Kalibrierungsdatensätze auskommt.
Die Methode ist zudem kompatibel mit bestehenden Inferenz-Engines wie vLLM und dem AWQ-Kernel, was eine vergleichbare Geschwindigkeitssteigerung zu den modernsten Quantisierungsmethoden ermöglicht.
Umfassende Ablationsstudien haben die Bedeutung jedes einzelnen QuantLRM-Bestandteils beleuchtet. Es zeigte sich, dass die explizite Berücksichtigung von Null-Gewichtungsaktualisierungen und das Prinzip des "Protecting Both Ends" entscheidend für die Leistungsfähigkeit sind. Insbesondere die Behandlung von Null-Aktualisierungen, indem sie beim Anpassen der quadratischen Funktionen ausgeschlossen und ihre Häufigkeit im Kanal gezählt wird, führte zu einer signifikanten Verbesserung der durchschnittlichen Punktzahl.
QuantLRM erfordert einen geringen einmaligen Vorbereitungsaufwand für die Berechnung der Gewichtungsaktualisierungen und deren Mapping. Dieser Aufwand ist offline und beeinflusst die Inferenzgeschwindigkeit nicht. Die Suchzeit für optimale Skalierungsfaktoren ist vergleichbar mit anderen Methoden, und die Inferenzlatenz ist identisch, da derselbe AWQ-Kernel verwendet wird. Dies macht QuantLRM zu einer effizienten Methode, die eine deutlich höhere Reasoning-Genauigkeit nach der Quantisierung liefert.
Auch bei der 4-Bit-Quantisierung (W4A16) erweist sich QuantLRM als wettbewerbsfähig, obwohl hier andere PTQ-Methoden bereits hohe Leistungsniveaus erreichen. Dies unterstreicht die Robustheit und Vielseitigkeit von QuantLRM als "sichere Standardlösung" über verschiedene Bit-Tiefen hinweg.
QuantLRM stellt einen wichtigen Fortschritt in der Quantisierung von Large Reasoning Models dar. Durch die innovative Nutzung von Fine-Tuning-Signalen und dem Prinzip des "Protecting Both Ends" gelingt es, die Leistung von LRMs nach der Quantisierung, insbesondere bei niedrigen Bit-Tiefen, signifikant zu verbessern. Die Kompatibilität mit bestehenden Infrastrukturen und die Möglichkeit des Pseudo-Fine-Tunings für nicht-gefintunte Modelle erweitern die Anwendungsbereiche erheblich. Diese Entwicklungen sind von großer Relevanz für Unternehmen, die leistungsstarke und gleichzeitig ressourceneffiziente KI-Modelle in ihren B2B-Lösungen einsetzen möchten.
Bibliography * [2602.02581] QuantLRM: Quantization of Large Reasoning Models via Fine-Tuning Signals. (2026). Abgerufen von https://www.arxiv.org/abs/2602.02581 * [PDF] Quantization of Large Reasoning Models via Fine-Tuning Signals. (2026). Abgerufen von https://www.arxiv.org/pdf/2602.02581 * The Impact of Quantization on Large Reasoning Model ... - NeurIPS. (n.d.). Abgerufen von https://neurips.cc/virtual/2025/126555 * QLoRA: Efficient Finetuning of Quantized LLMs. (2024). Abgerufen von https://openreview.net/forum?id=OUIFPHEgJU * L4Q: Parameter Efficient Quantization-Aware Fine-Tuning on Large Language Models. (2024). Abgerufen von https://arxiv.org/abs/2402.04902 * Low-Rank Quantization-Aware Training for LLMs. (2024). Abgerufen von https://arxiv.org/abs/2406.06385 * Yunqiang Li's Post - qlora #llms #quantization #efficientai - LinkedIn. (2025). Abgerufen von https://www.linkedin.com/posts/yunqiang-li-6a0878178_qlora-llms-quantization-activity-7408178627319648256-MBuZ * QLoRA: Efficient Finetuning of Quantized LLMs | Tim Dettmers. (2023). Abgerufen von https://www.youtube.com/watch?v=fQirE9N5q_Y * [PDF] QEFT: Quantization for Efficient Fine-Tuning of LLMs - ACL Anthology. (2024). Abgerufen von https://aclanthology.org/2024.findings-emnlp.811.pdf * Quantized reinforcement learning for large models - Facebook. (2025). Abgerufen von https://www.facebook.com/groups/DeepNetGroup/posts/2624443894615143/Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen