Neue Ansätze zur Testzeitausrichtung von Sprachmodellen mit autoregressiven Belohnungsmodellen

Kategorien:

No items found.

Freigegeben:

October 15, 2024

kostenlos testen KI für Unternehmen Termin buchen

Artikel jetzt als Podcast anhören

Große Sprachmodelle (LLMs) haben beeindruckende Fähigkeiten bewiesen, erfordern aber eine sorgfältige Abstimmung mit menschlichen Präferenzen. Herkömmliche Trainingsmethoden optimieren LLMs anhand von Datensätzen mit menschlichen Präferenzen, verursachen jedoch erhebliche Trainingskosten und erfordern wiederholtes Training, um unterschiedlichen Benutzerpräferenzen gerecht zu werden. Testzeit-Alignment-Methoden begegnen diesem Problem, indem sie Belohnungsmodelle (RMs) verwenden, um eingefrorene LLMs ohne erneutes Training zu steuern. Bestehende Testzeitansätze basieren jedoch auf trajektorienbasierten RMs, die darauf ausgelegt sind, vollständige Antworten zu bewerten, wodurch sie für die autoregressive Textgenerierung ungeeignet sind, bei der die Belohnung für das nächste Token aus teilweisen Antworten berechnet werden muss.

GenARM: Belohnungsgesteuerte Generierung mit autoregressivem Belohnungsmodell für die Ausrichtung zur Testzeit

Um dieses Problem anzugehen, wurde GenARM entwickelt, ein Testzeit-Alignment-Ansatz, der das autoregressive Belohnungsmodell nutzt - eine neuartige Belohnungsparametrisierung, die darauf ausgelegt ist, Belohnungen für das nächste Token für eine effiziente und effektive autoregressive Generierung vorherzusagen. Theoretisch wurde gezeigt, dass diese Parametrisierung eingefrorene LLMs innerhalb des KL-regularisierten Reinforcement-Learning-Frameworks nachweislich zu jeder Verteilung führen kann, die mit herkömmlichen RMs erreichbar ist.

Vorteile von GenARM

Experimentelle Ergebnisse zeigen, dass GenARM frühere Testzeit-Alignment-Baselines deutlich übertrifft und die Leistung von Trainingszeitmethoden erreicht. Darüber hinaus ermöglicht GenARM eine effiziente schwache bis starke Führung, bei der größere LLMs mit kleineren RMs abgeglichen werden, ohne dass hohe Kosten für das Training größerer Modelle anfallen. GenARM unterstützt außerdem die Multi-Objective-Ausrichtung, die Echtzeit-Kompromisse zwischen Präferenzdimensionen ermöglicht und auf unterschiedliche Benutzerpräferenzen eingeht, ohne dass ein erneutes Training erforderlich ist.

Hintergrund

LLMs haben in den letzten Jahren große Popularität erlangt, da sie in der Lage sind, menschenähnlichen Text zu generieren, Sprachen zu übersetzen und Fragen in einer umfassenden und informativen Weise zu beantworten. Allerdings können diese Modelle auch unerwünschte Ausgaben erzeugen, wenn sie nicht richtig auf die gewünschten Werte und Ziele abgestimmt sind. Traditionelle Methoden zur Ausrichtung von LLMs beruhen auf der Feinabstimmung während des Trainings, bei der Modelle mit Datensätzen trainiert werden, die von Menschen annotierte Daten enthalten. Dieser Ansatz kann jedoch zeitaufwändig und kostspielig sein, insbesondere bei großen Modellen und Datensätzen. Darüber hinaus erfordert die Feinabstimmung während des Trainings für jede neue Aufgabe oder Domäne ein erneutes Training, was die Anpassungsfähigkeit des Modells einschränkt. Testzeit-Alignment-Methoden zielen darauf ab, diese Einschränkungen zu überwinden, indem sie Belohnungsmodelle verwenden, um die Ausgabe von eingefrorenen LLMs während der Inferenz zu steuern. Belohnungsmodelle werden trainiert, um die Qualität von Textsequenzen auf der Grundlage menschlicher Präferenzen zu bewerten und können verwendet werden, um die Generierung in Richtung wünschenswerterer Ausgaben zu lenken.

Autoregressives Belohnungsmodell

Das Herzstück von GenARM ist das autoregressive Belohnungsmodell, eine neuartige Parametrisierung des Belohnungsmodells, die speziell für die autoregressive Textgenerierung entwickelt wurde. Im Gegensatz zu herkömmlichen Belohnungsmodellen, die eine vollständige Textsequenz als Eingabe benötigen, um eine Belohnung zu berechnen, sagt das autoregressive Belohnungsmodell Belohnungen für das nächste Token auf der Grundlage der Teilsequenz vorher, die bis zu diesem Zeitpunkt generiert wurde. Diese Parametrisierung bietet mehrere Vorteile für die Testzeitausrichtung. Erstens ermöglicht sie eine effiziente Belohnungsberechnung während der Generierung, da das Belohnungsmodell nicht die gesamte Sequenz für jedes generierte Token neu bewerten muss. Zweitens ermöglicht es eine feinkörnige Steuerung des Generierungsprozesses, da das Belohnungsmodell Feedback zu jedem generierten Token liefern kann, anstatt nur eine Gesamtbewertung für die gesamte Sequenz abzugeben.

Funktionsweise von GenARM

GenARM nutzt das autoregressive Belohnungsmodell innerhalb eines KL-regularisierten Reinforcement-Learning-Frameworks. Der Algorithmus beginnt mit einem eingefrorenen LLM und einem trainierten autoregressiven Belohnungsmodell. Während der Generierung wird das LLM verwendet, um eine Folge von Token autoregressiv zu erzeugen. Für jedes generierte Token berechnet das autoregressive Belohnungsmodell eine Belohnung auf der Grundlage der Teilsequenz. Diese Belohnung wird dann verwendet, um die Parameter des LLMs mithilfe eines auf Politikgradienten basierenden Aktualisierungsansatzes zu aktualisieren. Der KL-Regularisierungsterm im Zielfunktions dient dazu, sicherzustellen, dass die aktualisierte Richtlinie des LLMs nahe an seiner ursprünglichen Richtlinie bleibt, wodurch verhindert wird, dass das Modell von seiner ursprünglichen Verteilung abweicht und unerwünschte Ausgaben erzeugt.

Fazit

GenARM stellt einen vielversprechenden Ansatz für die Testzeitausrichtung von LLMs dar. Durch die Nutzung des autoregressiven Belohnungsmodells ermöglicht GenARM eine effiziente und effektive Steuerung des Generierungsprozesses, ohne dass ein erneutes Training erforderlich ist. Die experimentellen Ergebnisse zeigen, dass GenARM in der Lage ist, die Leistung von Trainingszeitmethoden zu erreichen und gleichzeitig zusätzliche Vorteile wie eine effiziente Schwach-Stark-Führung und Unterstützung für die Multi-Objective-Ausrichtung zu bieten. ## Bibliographie - https://arxiv.org/abs/2410.08193 - http://www.arxiv.org/pdf/2410.08193 - https://deeplearn.org/arxiv/535625/genarm:-reward-guided-generation-with-autoregressive-reward-model-for-test-time-alignment - http://140.143.194.41/category?cate=Text_Generation&page=0 - https://udarimadhu.github.io/ - https://arxiv-sanity-lite.com/?rank=time - https://www.semanticscholar.org/paper/Reward-Augmented-Decoding%3A-Efficient-Controlled-a-Deng-Raffel/e5d0857feca845b474b89565d513ff599629851d - https://www.researchgate.net/publication/376393232_Reward-Augmented_Decoding_Efficient_Controlled_Text_Generation_With_a_Unidirectional_Reward_Model - https://www.ijcai.org/proceedings/2023/0053.pdf - http://paperreading.club/category?cate=arXiv_CL

Was bedeutet das?

Mindverse vs ChatGPT Plus Widget

Sie nutzen bereits ChatGPT Plus? Das ist ein guter Anfang! Aber stellen Sie sich vor, Sie hätten Zugang zu allen führenden KI-Modellen weltweit, könnten mit Ihren eigenen Dokumenten arbeiten und nahtlos im Team kollaborieren.

🚀 Mindverse Studio

Die professionelle KI-Plattform für Unternehmen – leistungsstärker, flexibler und sicherer als ChatGPT Plus. Mit über 50 Modellen, DSGVO-konformer Infrastruktur und tiefgreifender Integration in Unternehmensprozesse.

ChatGPT Plus

❌ Kein strukturierter Dokumentenvergleich

❌ Keine Bearbeitung im Dokumentkontext

❌ Keine Integration von Unternehmenswissen

Mindverse Studio

✅ Gezielter Dokumentenvergleich mit Custom-Prompts

✅ Kontextbewusste Textbearbeitung im Editor

✅ Wissensbasierte Analyse & Zusammenfassungen

📚 Nutzen Sie Ihr internes Wissen – intelligent und sicher

Erstellen Sie leistungsstarke Wissensdatenbanken aus Ihren Unternehmensdokumenten.Mindverse Studio verknüpft diese direkt mit der KI – für präzise, kontextbezogene Antworten auf Basis Ihres spezifischen Know-hows.DSGVO-konform, transparent und jederzeit nachvollziehbar.

ChatGPT Plus

❌ Nur ein Modellanbieter (OpenAI)

❌ Keine Modellauswahl pro Use Case

❌ Keine zentrale Modellsteuerung für Teams

Mindverse Studio

✅ Zugriff auf über 50 verschiedene KI-Modelle

✅ Modellauswahl pro Prompt oder Assistent

✅ Zentrale Steuerung auf Organisationsebene

🧠 Zugang zu allen führenden KI-Modellen – flexibel & anpassbar

✓

OpenAI GPT-4: für kreative Texte und allgemeine Anwendungen

✓

Anthropic Claude: stark in Analyse, Struktur und komplexem Reasoning

✓

Google Gemini: ideal für multimodale Aufgaben (Text, Bild, Code)

✓

Eigene Engines: individuell trainiert auf Ihre Daten und Prozesse

ChatGPT Plus

❌ Keine echte Teamkollaboration

❌ Keine Rechte- oder Rollenverteilung

❌ Keine zentrale Steuerung oder Nachvollziehbarkeit

Mindverse Studio

✅ Teamübergreifende Bearbeitung in Echtzeit

✅ Granulare Rechte- und Freigabeverwaltung

✅ Zentrale Steuerung & Transparenz auf Organisationsebene

👥 Kollaborative KI für Ihr gesamtes Unternehmen

Nutzen Sie Mindverse Studio als zentrale Plattform für abteilungsübergreifende Zusammenarbeit.Teilen Sie Wissen, erstellen Sie gemeinsame Workflows und integrieren Sie KI nahtlos in Ihre täglichen Prozesse – sicher, skalierbar und effizient.Mit granularen Rechten, transparenter Nachvollziehbarkeit und Echtzeit-Kollaboration.