Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Weiterentwicklung von Large Language Models (LLMs) hat zu beeindruckenden Fortschritten in verschiedenen Anwendungsbereichen geführt. Eine zentrale Herausforderung bleibt jedoch die präzise und nicht-destruktive Bearbeitung dieser Modelle. Oft führen Änderungen, die auf spezifische Verhaltensweisen abzielen, unbeabsichtigt zu einer Verschlechterung der allgemeinen Fähigkeiten des Modells. Eine aktuelle Forschungsarbeit von Zarif Ikram et al. stellt mit "CrispEdit: Low-Curvature Projections for Scalable Non-Destructive LLM Editing" einen neuartigen Algorithmus vor, der diese Problematik adressiert und einen skalierbaren Ansatz für die Modellbearbeitung bietet.
Die Bearbeitung von LLMs ist von entscheidender Bedeutung, um neue Informationen zu integrieren, unerwünschtes Verhalten zu korrigieren oder Modelle an spezifische Anforderungen anzupassen. Bisherige Methoden sahen sich oft mit einem Dilemma konfrontiert: Erfolgreiche Änderungen an einem bestimmten Verhalten konnten die allgemeinen Fähigkeiten des Modells unbemerkt beeinträchtigen. Dies führte zu unerwünschten Effekten, die an Proxy- oder Reward-Hacking erinnern, bei denen das Modell zwar die gewünschte Änderung zeigte, jedoch in anderen, nicht direkt getesteten Bereichen degenerierte. Die Autoren betonen, dass eine effektive Bearbeitung nicht nur die gewünschte Änderung herbeiführen, sondern auch die Integrität der bestehenden Fähigkeiten des Modells wahren muss.
CrispEdit wurde entwickelt, um die Erhaltung der Modellfähigkeiten als explizite Randbedingung zu behandeln. Es handelt sich um einen skalierbaren und prinzipiengeleiteten Second-Order-Bearbeitungsalgorithmus, der bestehende Bearbeitungsansätze vereinheitlicht und verallgemeinert. Die Kernidee besteht darin, die Bearbeitung als ein Problem der eingeschränkten Optimierung zu formulieren. Dabei wird versucht, den Bearbeitungsverlust zu minimieren, während gleichzeitig gewährleistet wird, dass die Änderungen an den Modellfähigkeiten vernachlässigbar bleiben.
Ein Schlüsselkonzept von CrispEdit ist die Nutzung von "Low-Curvature Projections". Die Autoren stellen fest, dass nicht alle Parameterrichtungen in einem LLM gleichermaßen wichtig für die Erhaltung seiner Fähigkeiten sind. Die Verlustlandschaft von überparametrisierten neuronalen Netzen ist stark anisotrop: Sie weist in einigen Richtungen eine hohe Krümmung auf (wo Änderungen große Auswirkungen haben) und in anderen Richtungen eine geringe Krümmung (wo Parameteränderungen minimale Auswirkungen haben). CrispEdit nutzt diese Struktur, indem es Aktualisierungen in Unterräume mit geringer Krümmung des Fähigkeitsverlust-Landschafts projiziert. Dies ermöglicht es, Parameterbewegungen dort durchzuführen, wo die Modellfähigkeiten am wenigsten beeinträchtigt werden.
Um die Fähigkeitsbeschränkung präzise zu formulieren, verwendet CrispEdit die Bregman-Divergenz. Diese mathematische Metrik ermöglicht es, die Veränderung der Modellfähigkeiten zu messen, ohne die Annahme treffen zu müssen, dass das Basismodell bis zur Konvergenz trainiert wurde. Die quadratische Form der Bregman-Divergenz liefert exakt die Gauss-Newton-Hessian-Matrix (GNH). Die GNH ist auch für teil trainierte oder überparametrisierte Netzwerke gut geeignet und bildet die Grundlage für zuverlässige und skalierbare Approximationen.
Die direkte Berechnung und Speicherung der GNH wäre für LLMs mit Milliarden von Parametern zu aufwendig. CrispEdit adressiert diese Skalierungsproblematik mit zwei wesentlichen Innovationen:
Diese Ansätze machen die Curvature-basierte Bearbeitung bei LLM-Größe praktisch umsetzbar und ermöglichen es, Statistiken zur Fähigkeitskrümmung einmalig vorzuberechnen und über viele zukünftige Bearbeitungen hinweg wiederzuverwenden, was die Kosten amortisiert und Batch- sowie sequentielle Bearbeitung ermöglicht.
Die Wirksamkeit von CrispEdit wurde sowohl in kleinen als auch in großen Maßstäben evaluiert. In kontrollierten Kleinversuchen, beispielsweise bei der Bildklassifikation (LeNet-5 auf MNIST zu FashionMNIST), zeigte sich, dass die Low-Curvature Projections der Hessian-Matrix die stärkste Fähigkeitserhaltung bei gleichzeitiger Verbesserung der Fine-Tune-Genauigkeit lieferten. K-FAC bildete dieses Verhalten kostengünstig ab.
Bei der Skalierung auf Milliarden-Parameter-LLMs (z.B. LLaMA-3-8B-Instruct und Qwen-2.5-1.5B-Instruct) auf Standard-Datensätzen wie ZsRE, CounterFact und WikiBigEdit erzielte CrispEdit konsistent hohe Bearbeitungserfolge. Die Degradation der Modellfähigkeiten lag dabei im Durchschnitt unter 1 % über alle Datensätze hinweg, was eine signifikante Verbesserung gegenüber früheren Editoren darstellt. Die Evaluierung erfolgte mittels eines realistischen WILD-Protokolls, das autoregressive Dekodierung und LLM-as-a-Judge-Bewertung kombiniert, um die Leistung unter realitätsnahen Bedingungen zu messen.
Ablationsstudien zeigten zudem, dass CrispEdit robust gegenüber der Wahl des Energieschwellenwerts und der Größe des Fähigkeitsdatensatzes ist und bereits mit einer kleinen Anzahl von Stichproben (ab 100) effektiv arbeitet. Im Gegensatz zu Baselines, die bei größeren Skalierungen Engpässe aufweisen, behält CrispEdit seine Leistung auch bei bis zu 10.000 Bearbeitungen bei und generalisiert effektiv über verschiedene Modellarchitekturen. Eine sequentielle Variante, CrispEdit-Seq, zeigte ebenfalls starke Leistungen bei der schrittweisen Bearbeitung, wobei zuvor bearbeitetes Wissen erhalten blieb.
Für Unternehmen, die LLMs in kritischen Anwendungen einsetzen, bietet CrispEdit erhebliche Vorteile. Die Fähigkeit, Modelle präzise zu bearbeiten, ohne die Kernkompetenzen zu beeinträchtigen, ist entscheidend für:
Die Robustheit und Skalierbarkeit von CrispEdit machen es zu einem vielversprechenden Werkzeug für die Implementierung und Wartung von LLMs in anspruchsvollen Geschäftsumgebungen. Die Möglichkeit, Tausende von Wissensänderungen anzuwenden, ohne katastrophales Vergessen zu riskieren, ist ein entscheidender Fortschritt für die praktische Anwendung von LLMs als KI-Partner.
CrispEdit stellt einen wichtigen Fortschritt im Bereich der LLM-Bearbeitung dar. Durch die Formulierung der Modellbearbeitung als quadratisch eingeschränktes Optimierungsproblem und die Nutzung von Low-Curvature Projections, Bregman-Divergenz und effizienten K-FAC-Approximationen bietet es eine skalierbare und nicht-destruktive Methode. Dieser Ansatz ermöglicht es, LLMs gezielt zu modifizieren, während ihre allgemeinen Fähigkeiten nahezu intakt bleiben. Die erzielten Ergebnisse und die gezeigte Robustheit unterstreichen das Potenzial von CrispEdit, die Entwicklung und den Einsatz von LLMs in B2B-Anwendungen maßgeblich zu beeinflussen und zu optimieren.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen