KI für Ihr Unternehmen – Jetzt Demo buchen

CoPE Ein neuer Ansatz zur Verbesserung der Längenverallgemeinerung in großen Sprachmodellen

Kategorien:
No items found.
Freigegeben:
February 8, 2026

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

1
🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

2
🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

3
⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

4
🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

5
👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Inhaltsverzeichnis

    mindverse studio – Ihre Plattform für digitale Effizienz

    Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.
    Mehr über Mindverse Studio erfahren

    Das Wichtigste in Kürze

    • CoPE (Clipped Rotary Positional Embedding) ist eine neue Methode zur Verbesserung der Längenverallgemeinerung bei großen Sprachmodellen (LLMs).
    • Es adressiert die Herausforderungen bei der Verarbeitung langer Kontextlängen, indem es die Niederfrequenzkomponenten von RoPE (Rotary Positional Embedding) "weich beschneidet".
    • Diese Methode vereint Prinzipien der Out-of-Distribution (OOD)-Minderung und der semantischen Modellierung.
    • Experimente zeigen, dass CoPE die Leistung von LLMs bei Kontextlängen von bis zu 256.000 Token signifikant verbessert, ohne die Leistung bei kürzeren Kontexten zu beeinträchtigen.
    • CoPE ist als "Plug-and-Play"-Erweiterung konzipiert und kann ohne Änderungen an der Modellarchitektur in bestehende LLMs integriert werden.
    • Die Forschung hebt die Grenzen synthetischer Benchmarks hervor und betont die Bedeutung realitätsnaher Evaluierungen.

    Die Fähigkeit großer Sprachmodelle (LLMs), lange und komplexe Textsequenzen zu verarbeiten und zu verstehen, ist ein entscheidender Faktor für ihre Anwendbarkeit in zahlreichen Domänen. Eine aktuelle Forschungsarbeit mit dem Titel "CoPE: Clipped RoPE as A Scalable Free Lunch for Long Context LLMs" stellt eine innovative Methode vor, die genau diese Kapazität signifikant erweitern soll. Das Konzept von CoPE, einem "beschnittenen" Rotary Positional Embedding, zielt darauf ab, die Längenverallgemeinerung von LLMs zu verbessern und dabei eine hohe Effizienz zu wahren.

    Grundlagen und Herausforderungen der Kontextskalierung

    Rotationale Positions-Embeddings (RoPE) sind ein zentraler Bestandteil moderner LLMs, der es diesen Modellen ermöglicht, sequentielle Informationen zu verarbeiten und relative Positionen von Token zu erfassen. Trotz der Effektivität von RoPE stoßen LLMs bei der Verarbeitung sehr langer Kontextlängen, die über die während des Vortrainings gesehene Länge hinausgehen (Extrapolation), an ihre Grenzen. Die Forschung identifiziert hierbei zwei Hauptprobleme:

    • Out-of-Distribution (OOD)-Minderung: Wenn LLMs auf Kontextlängen angewendet werden, die sie während des Trainings nicht gesehen haben, können die Frequenzen von RoPE instabil werden. Dies führt zu einer Verschlechterung der Leistung, da das Modell Schwierigkeiten hat, neue Positionen korrekt zu verarbeiten. Verschiedene Ansätze wie Position Interpolation (PI), NTK und YaRN wurden entwickelt, um RoPE-Frequenzen zu skalieren und so die Extrapolation zu erleichtern.
    • Semantische Modellierung: Es wurde beobachtet, dass die Fähigkeit von RoPE, semantisch ähnliche Token über größere Distanzen hinweg zu erkennen und zu priorisieren, mit zunehmender relativer Distanz abnimmt. Dies wird als "Langzeitverfall der semantischen Aufmerksamkeit" bezeichnet und beeinträchtigt das Verständnis von Zusammenhängen in sehr langen Texten.

    Die Autoren der Studie argumentieren, dass beide Probleme – OOD-Extrapolation und der Langzeitverfall der semantischen Aufmerksamkeit – auf demselben Kernproblem beruhen: dem suboptimalen Verhalten von Niederfrequenzkomponenten in RoPE, insbesondere im Extrapolationsbereich. Diese Niederfrequenzkomponenten weisen Perioden auf, die die Fenstergröße des Vortrainings überschreiten können, was zu OOD-Problemen führt. Gleichzeitig dienen sie als semantischer Kanal, dessen diskriminierende Kraft bei zunehmender Kontextlänge abnimmt.

    CoPE: Eine minimalistische und effektive Lösung

    CoPE (Clipped Rotary Positional Embedding) adressiert die genannten Herausforderungen durch einen "weichen Beschnitt" (soft clipping) der Niederfrequenzkomponenten von RoPE. Diese minimalistische Intervention zielt darauf ab, die instabilen Niederfrequenzanteile zu stabilisieren und gleichzeitig Spektralleckagen zu verhindern, die bei einem "harten Beschnitt" (hard clipping) auftreten können.

    Funktionsweise des Soft Clipping

    Anstatt die Niederfrequenzkomponenten abrupt auf Null zu setzen, was zu spektralen Diskontinuitäten und unerwünschten Schwingungsartefakten ("Gibbs-Phänomen") führen kann, wendet CoPE eine sanfte spektrale Verjüngung an. Dies wird durch die Zuweisung skalarer Gewichte zu jeder Frequenzkomponente erreicht, wobei ein Cosinus-Abfall verwendet wird. Diese Strategie führt zu einem schnell abfallenden Kernel im Zeitbereich, der instabile Niederfrequenzkomponenten unterdrückt, ohne unerwünschte Langzeitkorrelationen zu induzieren.

    Ein wesentlicher Vorteil von CoPE ist seine "Plug-and-Play"-Natur. Die Methode lässt sich durch eine einfache Modifikation der RoPE-Frequenzinitialisierung nahtlos in bestehende LLM-Frameworks integrieren, ohne die Modellarchitektur ändern zu müssen. Dies gewährleistet die Kompatibilität mit optimierten Inferenz-Kernels wie FlashAttention und trägt dazu bei, die Inferenzgeschwindigkeiten beizubehalten.

    Experimentelle Validierung und Ergebnisse

    Die Wirksamkeit von CoPE wurde mittels umfangreicher Experimente auf verschiedenen Benchmarks evaluiert. Als Backbone-Modell diente Llama-3-8B, das ursprünglich mit einer Kontextfenstergröße von 8.000 Token vortrainiert wurde. Die Modelle wurden anschließend durch weiteres Vortraining auf ProLong-Daten (20 Milliarden Token) und SFT auf UltraChat-Daten (1 Milliarde Token) auf eine Kontextlänge von 64.000 Token erweitert.

    Leistungsvergleich auf HELMET-Benchmark

    Der HELMET-Benchmark, der eine Mischung aus synthetischen und realitätsnahen Aufgaben wie Zusammenfassungen, Langdokument-QA, In-Context Learning (ICL), Retrieval-Augmented Generation (RAG) und synthetischen Abrufaufgaben umfasst, diente als primäre Evaluierungsplattform. Die Ergebnisse zeigten, dass CoPE die Leistung von RoPE und der Hard-Clipping-Strategie über nahezu alle Aufgaben und Kontextlängen hinweg konsistent übertrifft.

    • Innerhalb des Trainingsbereichs (64.000 Token) erzielte CoPE eine durchschnittliche Verbesserung von 10,84 % gegenüber RoPE.
    • Bei Extrapolation auf 256.000 Token erreichte CoPE etwa die doppelte Leistung von RoPE, was eine überlegene Längenverallgemeinerungsfähigkeit demonstriert.
    • Im Gegensatz dazu zeigte die Hard-Clipping-Strategie, obwohl sie bei extremen Kontextlängen (128.000-256.000) leichte Verbesserungen aufwies, eine spürbare Verschlechterung innerhalb des Trainingsbereichs (8.000-64.000), was die theoretische Analyse der Spektralleckage bestätigt.

    Skalierbare Leistungssteigerung

    CoPE zeigte nicht nur eine höhere absolute Leistung, sondern auch Leistungssteigerungen, die mit zunehmender Kontextlänge skalieren. Die durchschnittliche Leistungssteigerung betrug etwa 4,54 % bei kürzeren Kontexten (8.000-16.000), stieg auf 10,39 % im Trainingsbereich (32.000-64.000) und erreichte unter Langkontext-Extrapolation (128.000-256.000) sogar 58,61 %. Dieser Trend deutet darauf hin, dass der Soft Clipping instabile Niederfrequenzverhalten effektiv unterdrückt, die mit zunehmendem Kontext stärker in Erscheinung treten.

    Grenzen synthetischer Aufgaben

    Die Studie beleuchtet auch die Einschränkungen synthetischer Benchmarks wie RULER und InfiniteBench. Obwohl diese Aufgaben weit verbreitet sind, liefern sie oft nur begrenzte Einblicke in die reale Leistung von LLMs. Viele synthetische Aufgaben sättigen schnell innerhalb des Trainingsbereichs und sind daher nicht effektiv, um Modellfähigkeiten zu unterscheiden. Andere zeigen eine geringe Diskriminierungskraft zwischen verschiedenen Methoden oder sind unempfindlich gegenüber der Kontextlänge. Dies unterstreicht die Bedeutung der Verwendung realitätsnaher Benchmarks wie HELMET für eine aussagekräftige Evaluation.

    Leistung bei Standard-Kurzkontext-Benchmarks

    Um sicherzustellen, dass die Soft-Clipping-Strategie von CoPE die allgemeinen Modellfähigkeiten nicht beeinträchtigt, wurde die Leistung auch auf einer Reihe von Standard-Kurzkontext-Benchmarks (MMLU, MMLU-Pro, GPQA, BIG-Bench Hard, GSM8K) evaluiert. CoPE bewahrte die Leistung und erzielte sogar leichte Verbesserungen auf allen Benchmarks. Dies deutet darauf hin, dass der Soft Clipping primär das suboptimale Verhalten von Niederfrequenzkomponenten unterdrückt, anstatt semantisch nützliche Signale zu löschen.

    Ablationsstudie

    Eine Ablationsstudie untersuchte den Einfluss des "Clipping Onset" (des Punktes, an dem der Beschnitt beginnt) auf die Leistung. Es wurde festgestellt, dass CoPE robust gegenüber der Wahl des Clipping Onsets ist und alle Varianten das Vanilla RoPE übertreffen. Die Standardkonfiguration, die etwa 75 % der Niederfrequenzen beschnitt, erzielte die beste Leistung, was darauf hindeutet, dass die Unterdrückung von Niederfrequenzen effektiv ist, aber nicht übermäßig aggressiv sein sollte.

    Fazit und Ausblick

    Die Forschung zu CoPE bietet eine vereinheitlichte Perspektive auf die Anpassungen von RoPE für lange Kontexte. Sie zeigt auf, dass frühere Methoden zur OOD-Minderung und semantischen Modellierung letztlich auf dasselbe Problem zurückzuführen sind: das suboptimale Verhalten von Niederfrequenzkomponenten im Extrapolationsbereich. Durch den vorgeschlagenen Soft Clipping bietet CoPE eine elegante und effektive Lösung, die nicht nur OOD-Ausreißer unterdrückt und semantische Signale verfeinert, sondern auch Spektralleckagen vermeidet.

    Die Ergebnisse positionieren CoPE als einen neuen State-of-the-Art-Ansatz für die Längenverallgemeinerung in LLMs. Die Fähigkeit, die Kontextlänge ohne wesentliche Leistungseinbußen auf bis zu 256.000 Token zu skalieren, eröffnet neue Möglichkeiten für Anwendungen, die ein tiefes Verständnis und die Verarbeitung sehr langer Dokumente erfordern, wie z.B. in der Kodierungsassistenz, Agenten-Speicherung und komplexen Problemlösung über lange Zeithorizonte. Für Unternehmen, die auf leistungsstarke LLMs angewiesen sind, könnte CoPE eine "kostenlose" Leistungssteigerung bedeuten, da es als einfache und skalierbare Erweiterung ohne architektonische Umgestaltung implementiert werden kann.

    Bibliography

    - Li, H., Ren, S., Yuille, A., & Wang, F. (2026). CoPE: Clipped RoPE as A Scalable Free Lunch for Long Context LLMs. arXiv preprint arXiv:2602.05258. - Hugging Face Papers. (n.d.). Daily Papers. Retrieved from https://huggingface.co/papers - Papers.cool. (n.d.). Artificial Intelligence. Retrieved from https://papers.cool/arxiv/cs.AI?sort=1 - Yang, B., Venkitesh, B., Talupuru, D., Lin, H., Cairuz, D., Blunsom, P., & Locatelli, A. (2025). Rope to Nope and Back Again: A New Hybrid Attention Strategy. NeurIPS 2025. Retrieved from https://openreview.net/pdf?id=Tp6ds3Dfqo

    Artikel jetzt als Podcast anhören

    Kunden die uns vertrauen:
    Arise Health logoArise Health logoThe Paak logoThe Paak logoOE logo2020INC logoEphicient logo
    und viele weitere mehr!

    Bereit für den nächsten Schritt?

    Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
    Herzlichen Dank! Deine Nachricht ist eingegangen!
    Oops! Du hast wohl was vergessen, versuche es nochmal.

    🚀 Neugierig auf Mindverse Studio?

    Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.

    🚀 Demo jetzt buchen