In der sich ständig weiterentwickelnden Welt der großen Sprachmodelle (LLMs) ist die Suche nach optimalen Architekturen und Komponenten ein ständiges Unterfangen. Ein Schwerpunkt liegt dabei auf der Aktivierungsfunktion, einem wesentlichen Bestandteil neuronaler Netze, der die Ausgabe eines Neurons basierend auf seiner Eingabe bestimmt. Während GELU (Gaussian Error Linear Unit) sich in Transformer-basierten Modellen als beliebte Wahl etabliert hat, stellt eine neue Studie diese Präferenz in Frage, insbesondere im Kontext von LLMs, die auf die Normalisierungsschicht LayerNorm verzichten.
Aktivierungsfunktionen spielen eine entscheidende Rolle für die Fähigkeit neuronaler Netze, komplexe Muster zu erlernen. Sie führen Nichtlinearitäten in das Modell ein und ermöglichen so die Approximation beliebiger Funktionen. Die Wahl der Aktivierungsfunktion kann die Trainingsstabilität, die Generalisierungsfähigkeit und die Interpretierbarkeit des Modells beeinflussen. In Transformer-basierten Modellen, die die Grundlage für viele moderne LLMs bilden, hat sich GELU aufgrund seiner Fähigkeit, sowohl lineare als auch nichtlineare Verhaltensweisen zu erfassen, als Standard herauskristallisiert.
LayerNorm ist eine Normalisierungstechnik, die häufig in LLMs eingesetzt wird, um die Trainingsstabilität zu verbessern. Sie normalisiert die Ausgaben von Neuronen innerhalb einer Schicht, wodurch die Verteilung der Aktivierungen während des Trainings konsistent bleibt. Dies ermöglicht schnellere Trainingszeiten und bessere Leistung. LayerNorm bringt jedoch auch Herausforderungen mit sich. Es erhöht die Komplexität der Modellarchitektur und kann die Interpretierbarkeit der gelernten Repräsentationen erschweren. Darüber hinaus kann LayerNorm die Fähigkeit des Modells einschränken, Ausreißermerkmale zu erkennen und zu verarbeiten, die wertvolle Informationen enthalten können.
Die vorliegende Studie untersucht die Leistung verschiedener Aktivierungsfunktionen in normalisierungsfreien Decoder-Only-LLMs. Entgegen der gängigen Praxis, GELU in Transformer-basierten Modellen zu verwenden, zeigt die Studie einen gegenteiligen Trend: ReLU (Rectified Linear Unit) übertrifft GELU in LayerNorm-freien Modellen deutlich und führt zu einer Verbesserung der Perplexität um 8,2 %. Perplexität ist ein gängiges Maß für die Leistungsfähigkeit von Sprachmodellen, wobei ein niedrigerer Wert auf eine bessere Leistung hinweist.
Die Studie deckt ein Problem mit GELU in normalisierungsfreien LLMs auf, das als "Entropische Überlastung" bezeichnet wird. In frühen Schichten des Netzwerks führt GELU zu einer Überlastung an Informationen, wodurch die Fähigkeit der Aufmerksamkeitsköpfe, aussagekräftige Repräsentationen zu erlernen, beeinträchtigt wird. Aufmerksamkeitsköpfe sind ein Schlüsselmechanismus in Transformer-Modellen, der es ihnen ermöglicht, sich auf verschiedene Teile der Eingabe zu konzentrieren. Diese Überlastung an Informationen begrenzt die Fähigkeit des Modells, die volle Repräsentationskapazität seiner Aufmerksamkeitsköpfe auszunutzen.
ReLU hingegen weist geometrische Eigenschaften auf, die es für normalisierungsfreie Architekturen besser geeignet machen. Seine stückweise lineare Natur führt zu einer Spezialisierung im Eingangsraum, so dass verschiedene Neuronen auf verschiedene Bereiche der Eingabe reagieren. Diese Spezialisierung ermöglicht eine effizientere Informationsverarbeitung und -speicherung. Darüber hinaus fördert ReLU die Intra-Klassen-Selektivität, d. h. Neuronen neigen dazu, für Eingaben derselben Klasse stärker zu reagieren. Diese Eigenschaft trägt zur Stabilität des Trainings bei und verbessert die Fähigkeit des Modells, zwischen verschiedenen Klassen zu unterscheiden.
Die Ergebnisse dieser Studie stellen die gängige Meinung in Frage, dass GELU die optimale Aktivierungsfunktion für Transformer-basierte Modelle ist, insbesondere in Abwesenheit von LayerNorm. Die Vorteile von ReLU in Bezug auf die Perplexität und die Fähigkeit, entropische Überlastung zu vermeiden, unterstreichen die Bedeutung der Auswahl der richtigen Aktivierungsfunktion basierend auf der spezifischen Modellarchitektur und -aufgabe. Die Studie liefert wertvolle Erkenntnisse für die Optimierung von Transformer-Architekturen, bei denen LayerNorm Herausforderungen in Bezug auf Interpretierbarkeit, Ausreißerverarbeitung und Berechnungskomplexität mit sich bringt.