Neuartige Ansätze für das Fein-Tuning quantisierter Large Language Models

Kategorien:

No items found.

Freigegeben:

February 17, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Quantisierte Evolution Strategien (QES) ermöglichen das Fein-Tuning von Large Language Models (LLMs) direkt im quantisierten Raum.
QES adressiert die Herausforderungen der Gradientenstagnation und ungenauer Parameteraktualisierungen in quantisierten Modellen.
Zwei zentrale Innovationen sind die akkumulierte Fehlerkorrektur und der zustandslose Seed-Replay.
Diese Methode reduziert den Speicherverbrauch auf das Niveau der Inferenz mit geringer Präzision.
QES übertrifft bestehende Nullter-Ordnung-Fein-Tuning-Methoden bei arithmetischen Denkaufgaben signifikant.
Die Technologie könnte die Skalierung von LLMs im quantisierten Raum vorantreiben und den Zugang zum Fein-Tuning demokratisieren.

Fein-Tuning quantisierter LLMs: Ein Paradigmenwechsel durch Quantisierte Evolution Strategien

Die Weiterentwicklung von Large Language Models (LLMs) hat bemerkenswerte Fortschritte in Bereichen wie mathematischem Denken, Codegenerierung und allgemeiner Problemlösung ermöglicht. Diese Leistungsfähigkeit geht jedoch oft mit einem erheblichen Rechenaufwand einher, insbesondere bei der Bereitstellung auf Geräten mit begrenztem Speicher. Die Post-Training Quantisierung (PTQ) hat sich als Standardmethode etabliert, um den Speicherbedarf von LLMs zu reduzieren und Inferenz mit geringer Präzision (z.B. 3-4 Bit) bei vernachlässigbarem Leistungsverlust zu ermöglichen. Ein wesentlicher Nachteil quantisierter Modelle ist jedoch ihre statische Natur, die ein nachfolgendes Fein-Tuning erschwert.

Die Herausforderung des Fein-Tunings in quantisierten Räumen

Standard-Fein-Tuning-Paradigmen, einschließlich Reinforcement Learning (RL), basieren auf Backpropagation und hochpräzisen Gewichten zur Berechnung von Gradienten. Diese Ansätze sind für quantisierte Modelle, deren Parameterraum diskret und nicht differenzierbar ist, ungeeignet. Während Evolution Strategies (ES) eine Alternative ohne Backpropagation bieten, kann die Optimierung quantisierter Parameter immer noch aufgrund von verschwindenden oder ungenauen Gradienten scheitern. Dies führt zu einem Stagnationsproblem, bei dem die Optimierung nicht effektiv voranschreitet. Bestehende Ansätze wie Quantization-Aware Training (QAT) oder QLoRA erfordern oft eine Dequantisierung während des Backward-Passes, was wiederum einen erheblichen Speicherbedarf mit sich bringt, der den Vorteil der Quantisierung teilweise aufhebt. Zudem sind Straight-Through Estimators (STE), die zur Approximation von Gradienten in undifferenzierbaren Schritten verwendet werden, in tiefen Netzwerken inhärent instabil.

Quantisierte Evolution Strategien (QES) als Lösung

Ein Forschungsteam hat mit den Quantisierten Evolution Strategien (QES) ein neuartiges Optimierungsparadigma vorgestellt, das das Fein-Tuning von LLMs direkt im quantisierten Parameterraum ermöglicht. QES basiert auf zwei Kerninnovationen, die darauf abzielen, die genannten Herausforderungen zu überwinden:

Akkumulierte Fehlerkorrektur (Accumulated Error Feedback): Diese Methode integriert eine hochpräzise Fehlervektor, der Quantisierungsfehler aus vorherigen Schritten akkumuliert. Anstatt den fraktionalen Anteil einer Aktualisierung zu verwerfen, wird er weitergeführt. Dieser Mechanismus ermöglicht es dem Optimierer, selbst infinitesimale Gradientensignale über mehrere Iterationen hinweg zu erfassen und zu nutzen, bis sie einen Rundungsschwellenwert überschreiten und eine diskrete Aktualisierung auslösen. Dies simuliert effektiv eine niedrigere Lernrate auf dem Integer-Gitter und erhält die hochpräzise Lerndynamik.
Zustandsloser Seed-Replay (Stateless Seed Replay): Um den Speicher-Overhead durch das Speichern des hochpräzisen Fehlervektors zu vermeiden, nutzt QES einen zustandslosen Seed-Replay-Mechanismus. Statt den Fehlervektor zu speichern, wird eine Historie der Zufalls-Seeds, die zur Generierung von Störungen verwendet wurden, und die entsprechenden Belohnungen über ein begrenztes Zeitfenster vorgehalten. Der Fehlerakkumulationsprozess wird bei jedem Aktualisierungsschritt "on-the-fly" neu simuliert. Dies reduziert die Speicherkomplexität von O(d) (Parameterdimension) auf O(K) (Größe des Replay-Fensters), wobei K wesentlich kleiner ist als d. Dadurch wird ein Fein-Tuning mit vollen Parametern auf Hardware möglich, die zuvor nur quantisierte Inferenz unterstützen konnte.

Empirische Validierung und Leistung

Die Wirksamkeit von QES wurde in Experimenten anhand arithmetischer Denkaufgaben unter strengen Speicherbeschränkungen evaluiert. Die Modelle Qwen2.5 (1.5B und 3B Parameter), quantisiert in INT4-, INT8- und W8A8-Formaten, dienten als Basis. QES wurde mit dem Basismodell (ohne Fein-Tuning) und der führenden Nullter-Ordnung-Fein-Tuning-Methode QuZO verglichen. Die Ergebnisse zeigen, dass QES die Argumentationsfähigkeiten der quantisierten Basismodelle signifikant verbessert und dabei QuZO deutlich übertrifft.

Bei Qwen2.5-1.5B INT4 verbesserte QES die Genauigkeit von 3,50% auf 16,00%, während QuZO nur 5,25% erreichte.
Bei größeren Modellen wie dem 3B-Modell verdoppelte QES die Leistung des Basismodells von 14,25% auf 31,85%.

Diese Ergebnisse bestätigen, dass der Fehlerakkumulationsmechanismus entscheidend für das Lernen ist, insbesondere bei grober Quantisierung. Im Gegensatz zu QuZO, dessen Leistung stark von der Größe des Basismodells abhängt und bei kleineren Modellen zur Stagnation neigt, zeigt QES eine Robustheit über verschiedene Skalen hinweg. Die Fähigkeit von QES, die Leistung des speicherintensiven "Full Residual"-Ansatzes mit nahezu perfekter Wiedergabetreue zu erreichen, validiert zudem die Effektivität des zustandslosen Seed-Replay-Mechanismus.

Temporale Äquivalenz zur kontinuierlichen Optimierung

Der Erfolg von QES lässt sich durch die temporale Äquivalenz zwischen den diskreten und kontinuierlichen Domänen erklären. Durch die Definition virtueller kontinuierlicher Parameter, die die Summe der physikalischen diskreten Gewichte und des akkumulierten Restfehlers darstellen, konnte gezeigt werden, dass sich diese virtuellen Parameter gemäß der Dynamik eines uneingeschränkten, hochpräzisen Gradientenanstiegs entwickeln. Das quantisierte Modell weicht dabei nie mehr als einem halben Gitterschritt von dieser idealen Trajektorie ab. Der Restfehler integriert effektiv infinitesimale Gradientensignale über die Zeit, bis sie den Quantisierungsschwellenwert überschreiten und eine diskrete Aktualisierung auslösen, die das physikalische Modell mit dem virtuellen kontinuierlichen Pfad in Einklang bringt.

Ausblick und Implikationen

Die Quantisierten Evolution Strategien stellen einen bedeutenden Schritt dar, um das Fein-Tuning von LLMs zu demokratisieren und für eine breitere Palette von Hardware zugänglich zu machen. Die Methode ermöglicht hochpräzises Lernen direkt im quantisierten Parameterraum und reduziert den Speicherbedarf erheblich, was zu einer ressourceneffizienteren KI-Entwicklung beiträgt. Dies könnte den Energieverbrauch und die Umweltauswirkungen der Skalierung großer Modelle senken. Zukünftige Forschungsrichtungen umfassen die Erweiterung von QES auf aggressivere und nicht-uniforme Quantisierungsparadigmen, wie binäre Netzwerke und Floating-Point-Formate (z.B. FP4), sowie die Entwicklung adaptiver Algorithmen zur automatischen Abstimmung von Hyperparametern, um den Kompromiss zwischen Rechenaufwand, Speicher und Konvergenzstabilität zu optimieren. Die Möglichkeit, deutlich größere Modelle mit derselben Hardware zu trainieren, indem Präzision gegen eine größere Anzahl von Parametern getauscht wird und nur Low-Precision-Inferenz während des Trainings erforderlich ist, eröffnet neue Wege für die zukünftige Skalierung von LLMs.

Die vorliegende Entwicklung zeigt auf, dass der Weg zu effizienteren und zugänglicheren LLM-Anwendungen durch innovative Optimierungsstrategien wie QES geebnet wird, die die Grenzen des Machbaren im Bereich der KI-Modellierung verschieben.

Bibliographie

- Xu, Y., Miikkulainen, R., & Qiu, X. (2026). Quantized Evolution Strategies: High-precision Fine-tuning of Quantized LLMs at Low-precision Cost. arXiv preprint arXiv:2602.03120. - ResearchGate. (2026). Quantized Evolution Strategies: High-precision Fine-tuning of Quantized LLMs at Low-precision Cost. - TheMoonlight.io. (n.d.). Quantized Evolution Strategies: High-precision Fine-tuning of Quantized LLMs at Low-precision Cost. - GitHub. (n.d.). dibbla/Quantized-Evolution-Strategies. - EmergentMind. (n.d.). Quantized Evolution Strategies (QES). - Zhou, J., Yang, Y., Zhen, K., Liu, Z., Zhao, Y., Banijamali, E., Mouchtaris, A., Wong, N., & Zhang, Z. (2025). QuZO: Quantized Zeroth-Order Fine-Tuning for Large Language Models. - Malladi, S., Gao, T., Nichani, E., Damian, A., Lee, J. D., Chen, D., & Arora, S. (2024). Fine-tuning language models with just forward passes. - Dettmers, T., Pagnoni, A., Holtzman, A., & Zettlemoyer, L. (2023). QLoRA: Efficient finetuning of quantized LLMs. - Frantar, E., Ashkboos, S., Hoefler, T., & Alistarh, D. (2023). GPTQ: Accurate post-training quantization for generative pre-trained transformers. - Xiao, G., Lin, J., Seznec, M., Wu, H., Demouth, J., & Han, S. (2024). SmoothQuant: Accurate and efficient post-training quantization for large language models. - Liu, Z., Oguz, B., Zhao, C., Chang, E., Stock, P., Mehdad, Y., Shi, Y., Krishnamoorthi, R., & Chandra, V. (2024). LLM-QAT: Data-free quantization aware training for large language models. - Inose, H., Yasuda, Y., & Murakami, J. (1962). A telemetering system by code modulation - Δ - Σ modulation. - Razavi, B. (2016). The delta-sigma modulator [a circuit for all seasons]. - Seide, F., Fu, H., Droppo, J., Li, G., & Yu, D. (2014). 1-bit stochastic gradient descent and its application to data-parallel distributed training of speech dnns. - Strom, N. (2015). Scalable distributed DNN training using commodity GPU cloud computing. - Karimireddy, S. P., Rebjock, Q., Stich, S., & Jaggi, M. (2019). Error feedback fixes SignSGD and other gradient compression schemes. - Salimans, T., Ho, J., Chen, X., Sidor, S., & Sutskever, I. (2017). Evolution strategies as a scalable alternative to reinforcement learning. - Qiu, X., Gan, Y., Hayes, C. F., Liang, Q., Meyerson, E., Hodjat, B., & Miikkulainen, R. (2025). Evolution strategies at scale: LLM fine-tuning beyond reinforcement learning. - Connolly, M. P., Higham, N. J., & Mary, T. (2021). Stochastic rounding and its probabilistic backward error analysis.