Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Entwicklung von Large Language Models (LLMs) und anderen tiefen neuronalen Netzen hat in den letzten Jahren beeindruckende Fortschritte gemacht. Die Leistungsfähigkeit dieser Modelle korreliert oft mit ihrer Größe – mehr Parameter und umfangreichere Trainingsdaten führen in der Regel zu besseren Ergebnissen. Insbesondere die Erhöhung der Modellbreite, also der Dimension der verborgenen Schichten, ermöglicht die Repräsentation komplexerer Funktionen und steigert die Performance erheblich. Allerdings führt eine naive Skalierung der Breite zu einem quadratischen Anstieg der Parameter und Rechenkosten, was in ressourcenbeschränkten Umgebungen eine große Herausforderung darstellt. Vor diesem Hintergrund gewinnen Ansätze, die die Modellkapazität erweitern, ohne die Rechenkosten proportional zu erhöhen, zunehmend an Bedeutung. Eine vielversprechende Methode, die in jüngster Zeit in den Fokus gerückt ist, sind die Virtual Width Networks (VWN).
Virtual Width Networks bieten einen innovativen Rahmen, um die Vorteile breiterer Repräsentationen zu nutzen, ohne die damit verbundenen quadratischen Kostensteigerungen in Kauf nehmen zu müssen. Das Kernprinzip besteht darin, die Repräsentationsbreite von der Backbone-Breite zu entkoppeln. Dies bedeutet, dass der Embedding-Raum des Modells erweitert wird, während die Rechenlast des Backbones, der die eigentliche Transformation der Daten vornimmt, nahezu konstant bleibt.
Traditionelle Transformer-Modelle verwenden für Embeddings und das Backbone dieselbe Breite. Eine direkte Erhöhung dieser Breite würde zu einem quadratischen Wachstum der Parameter und der Rechenleistung führen. VWN hingegen schlägt vor, die Breite der Token-Embeddings zu skalieren, während die Dimension der verborgenen Schichten des Transformer-Backbones fixiert bleibt. Dies wird durch eine erweiterte Eingabe, die sogenannte Over-Width Embedding, und spezielle Verbindungsmechanismen erreicht.
Ein zentraler Bestandteil der VWN-Architektur sind die Generalisierten Hyper-Connections (GHC). Diese stellen eine flexible Methode dar, um die breiteren Token-Embeddings effektiv zu nutzen, während die ursprüngliche verborgene Dimension während der Berechnungen in den Zwischenschichten beibehalten wird. GHCs führen eine leichte Transformationsmatrix ein, die gewichtete Beziehungen zwischen Segmenten der ursprünglichen verborgenen Repräsentationen und den erweiterten Token-Embeddings kodiert.
Konzeptionell können GHCs als eine Verallgemeinerung früherer Konzepte wie Hyper-Connections und Frac-Connections verstanden werden. Sie ermöglichen es, die Over-Width Hidden States vor der Eingabe in die Aufmerksamkeits- oder Feedforward-Module auf die Backbone-Breite zu komprimieren und anschließend die Modulausgaben wieder auf die Over-Width zu erweitern, um die Over-Width Hidden States für die nächste Schicht zu aktualisieren. Dieser Prozess sorgt für eine effiziente Nutzung des erweiterten Repräsentationsraums bei minimalem Rechenaufwand.
Zur weiteren Verbesserung der Anpassungsfähigkeit werden Dynamische GHCs (DGHC) eingesetzt, bei denen die Transformationsmatrizen adaptiv an die Eingaberepräsentationen angepasst werden. Diese dynamischen Parameter werden durch ein leichtgewichtiges lineares Projektionsnetzwerk generiert. Die Implementierung beinhaltet spezifische Initialisierungsstrategien für statische und dynamische Matrizen, um die Trainingsstabilität zu gewährleisten.
Um die erweiterten Repräsentationen optimal zu nutzen, wird VWN oft mit Multi-Token Prediction (MTP) kombiniert. MTP optimiert sowohl das standardmäßige Next-Token-Ziel als auch eine zusätzliche N-Gramm-Verlustfunktion. Die dichtere MTP-Supervision trainiert den erweiterten virtuellen Raum, während die zusätzlichen Repräsentationsfreiheitsgrade von VWN die kurzfristige kompositionelle Modellierung verbessern, was zu einem synergetischen Effekt führt.
Die theoretischen Rechenkosten von VWN sind relativ gering. Die zusätzlichen Operationen, wie Normalisierung und dynamische Parameterberechnung, sind im Vergleich zu den dominanten Kosten eines Transformers, insbesondere bei GPU-basierten Systemen, marginal. Der Speicherbedarf für Zwischenaktivierungen ist zwar vorhanden, kann aber durch kostengünstige Neuberechnungen reduziert werden. Dies macht VWN zu einer token-effizienten Lösung, die mit zunehmender Skalierung immer effektiver wird.
Groß angelegte Experimente mit Mixture-of-Experts (MoE)-Modellen verschiedener Größenordnungen haben die Wirksamkeit von VWN bestätigt. Eine achtfache Erweiterung der virtuellen Breite führte zu einer deutlichen Beschleunigung der Optimierung:
Dieser Vorteil verstärkte sich im Laufe des Trainings, was darauf hindeutet, dass VWN nicht nur token-effizient ist, sondern auch mit der Skalierung zunehmend effektiver wird. Eine bemerkenswerte Entdeckung ist die annähernd log-lineare Skalierungsbeziehung zwischen der virtuellen Breite und der Verlustreduktion. Dies bietet eine empirische Grundlage und Motivation, die Skalierung der virtuellen Breite als eine neue Dimension der Effizienz großer Modelle zu erforschen.
Die Ergebnisse zeigen auch, dass VWN sowohl bei kleineren als auch bei größeren MoE-Modellen zu konsistenten Verbesserungen der nachgelagerten Genauigkeit führt, insbesondere in Kombination mit MTP. Die Fähigkeit, die Repräsentationskapazität zu erhöhen, ohne die Backbone-Breite zu vergrößern, führt zu einer besseren Verallgemeinerung auf verschiedene Aufgaben.
Eine Reinterpretation von VWN durch die Linse der Konnektivität betrachtet die Schichten als eine "Tiefen-Sequenz", wobei jeder Schichtindex einer Token-Position ähnelt und verborgene Zustände als "vertikaler KV-Cache" fungieren. GHCs realisieren hierbei einen gelernten, festkostenbasierten, linear-aufmerksamkeitsartigen Mechanismus über die Tiefe, der den zugänglichen Tiefenkontext skaliert. Dies ermöglicht es dem Modell, Informationen aus früheren Schichten linear zu aggregieren, die durch den "Carry-Operator" der GHCs propagiert und geschrieben werden.
Die Wahl des Parameters 'm' (Fraction Rate) beeinflusst, wie das Speicherbudget für Tiefeninformationen aufgeteilt wird. Ein kleineres 'm' speichert weniger Schichten mit höherer Dimensionalität, während ein größeres 'm' mehr Schichten in komprimierter Form speichert. Dies ermöglicht eine flexible Anpassung an die Modellgröße und -tiefe.
Trotz der vielversprechenden algorithmischen Vorteile und des günstigen Verhältnisses von Qualität zu Rechenleistung stehen VWN in der Praxis vor Herausforderungen. Mit zunehmender Breite der verborgenen Schichten werden Kommunikations- und Speicherzugriffs-Overheads nicht unerheblich. Aktuelle Hardware ist nicht optimal für sehr breite Aktivierungen und geräteübergreifendes Routing ausgelegt. Daher ist die Implementierungsunterstützung für extrem breite Konfigurationen derzeit begrenzt.
In der Praxis sind virtuelle Breitenerweiterungen im Bereich von 1,5- bis 4-fach auf heutigen Systemen eher machbar. Größere Erweiterungen könnten ein Co-Design von Software, Speicherlayouts und Verbindungsstrategien erfordern, um ihr volles Potenzial auszuschöpfen. Dennoch bieten Virtual Width Networks einen konkreten Ansatzpunkt, um Kompromisse zwischen Kapazität und Rechenleistung zu untersuchen und zu erforschen, wie eine kontrollierte Breitenerweiterung die Modellqualität effizient verbessern kann.
Virtual Width Networks stellen eine bedeutende Innovation im Bereich der künstlichen Intelligenz dar. Durch die Entkopplung der Repräsentationsbreite von den Rechenkosten bieten sie einen Weg, die Leistungsfähigkeit von KI-Modellen zu steigern, ohne die Ressourcen übermäßig zu belasten. Die Kombination aus Over-Width Embeddings, Generalisierten Hyper-Connections und Multi-Token Prediction ermöglicht eine effizientere Optimierung und eine verbesserte Verallgemeinerungsfähigkeit. Die Entdeckung einer log-linearen Skalierungsbeziehung eröffnet zudem neue Perspektiven für die Gestaltung und Optimierung zukünftiger großer KI-Modelle.
Für Unternehmen, die auf KI-Technologien wie Mindverse setzen, bedeutet dies die Möglichkeit, leistungsfähigere Modelle bei optimierten Rechenressourcen einzusetzen. Dies kann zu schnelleren Entwicklungszyklen, effizienterem Training und letztlich zu besseren KI-Anwendungen führen.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen