Reinforcement Learning from Human Feedback (RLHF) hat sich zum vorherrschenden Ansatz für die Ausrichtung von Sprachmodellen (LMs) entwickelt, um ihre Hilfsbereitschaft zu verbessern und ihre Schädlichkeit zu verringern. Im Kern verwendet RLHF einen margenbasierten Verlust für die Präferenzoptimierung, der das ideale LM-Verhalten nur durch den Unterschied zwischen bevorzugten und nicht bevorzugten Antworten spezifiziert.
Der margenbasierte kontrastive Verlust von RLHF spezifiziert kein ideales Verhalten für einzelne Log-Wahrscheinlichkeiten von ausgewählten und abgelehnten Antworten, was zu Folgendem führt:
"Gradientenverschränkung": Änderungen der bevorzugten Wahrscheinlichkeiten sind mit Gradienten der nicht bevorzugten Wahrscheinlichkeiten gekoppelt und umgekehrt.
Die Trainingsdynamik dieser margenbasierten Präferenzoptimierung ist faszinierend - die Log-Wahrscheinlichkeiten der ausgewählten und abgelehnten Antworten zeigen oft einen synchronisierten Anstieg und Abfall. Es ist erwähnenswert, dass am Ende des Trainings, obwohl die Marge zunimmt (was zur Minimierung des margenbasierten Verlusts führt), die Log-Wahrscheinlichkeit sowohl der ausgewählten als auch der abgelehnten Antworten zunehmen oder beide abnehmen kann.
Diese synchronisierte Änderung der Log-Wahrscheinlichkeit deckt ein grundlegendes Problem bei der Verwendung von margenbasiertem Verlust für die Präferenzoptimierung bei der Ausrichtung von Sprachmodellen auf: Er spezifiziert nur das ideale Verhalten der Marge zwischen ausgewählten und abgelehnten Log-Wahrscheinlichkeiten, nicht aber das ideale Verhalten einzelner Terme. Diese Unterspezifikation kann zwei problematische Folgen haben:
Erstens: Wenn das Hauptziel darin besteht, die Wahrscheinlichkeit der Generierung abgelehnter Antworten zu reduzieren (z. B. bei sicherheitsrelevanten Ausrichtungsaufgaben, bei denen bestimmte unerwünschte Antworten nicht generiert werden sollten), garantiert die bloße Erhöhung der Marge (d. h. die Sicherstellung, dass die ausgewählte Antwort der abgelehnten vorgezogen wird) nicht, dass die Log-Wahrscheinlichkeit der abgelehnten Antwort tatsächlich abnimmt.
Zweitens: Selbst wenn die Log-Wahrscheinlichkeit der abgelehnten Antwort abnimmt, führen die aktuellen margenbasierten Verluste oft zu einer gleichzeitigen Verringerung der Log-Wahrscheinlichkeit der ausgewählten Antwort. Dies ist besonders dann bedenklich, wenn wir die Wahrscheinlichkeit der Generierung der bevorzugten Antworten beibehalten oder sogar erhöhen wollen. Beispielsweise ist es bei der Destillation starker Sprachmodelle in kleinere Modelle gängige Praxis, ausgewählte Stichproben mit diesen starken Modellen zu synthetisieren; bei einigen Alignierungsanwendungen (z. B. beim Lösen mathematischer Probleme und beim Programmieren) können ausgewählte Stichproben die menschlichen Demonstrationen sein, die während der SFT-Phase gesammelt wurden. In beiden Szenarien sind die ausgewählten Antworten ideal, und wir möchten, dass die Wahrscheinlichkeit der ausgewählten Antwort zunimmt - oder zumindest nicht abnimmt -, um sicherzustellen, dass das Modell eine hohe Wahrscheinlichkeit behält, diese idealen Antworten zu generieren.
Es ist erwähnenswert, dass es Szenarien gibt, in denen das ideale Verhalten von LM bei ausgewählten und abgelehnten Stichproben unklar ist, z. B. wenn im ursprünglichen RLHF-Verfahren die ausgewählten und abgelehnten Paare aus Modellen gezogen werden, die sich noch im Training befinden. Unsere Studie ist durch die beiden vorhergehenden Szenarien motiviert, in denen sich im Idealfall die Wahrscheinlichkeiten des LM für ausgewählte Stichproben erhöhen und die für abgelehnte Stichproben während der Ausrichtung verringern sollten. Die meisten margenbasierten Methoden sind jedoch nicht in der Lage, das ideale Verhalten zu induzieren, was die Notwendigkeit verdeutlicht, diese häufige Herausforderung zu verstehen.
In dieser Arbeit wird untersucht, warum Log-Wahrscheinlichkeiten während der Ausrichtung einen synchronisierten Anstieg oder Abfall aufweisen. Es wird aufgedeckt, dass die zugrunde liegende Ursache der Effekt der Gradientenverschränkung ist, der den margenbasierten Zielen innewohnt: Margenbasierte Verluste koppeln die Änderung der ausgewählten Wahrscheinlichkeit an den Gradienten der abgelehnten Wahrscheinlichkeit und umgekehrt, wodurch verhindert wird, dass sich die ausgewählten und abgelehnten Wahrscheinlichkeiten unabhängig voneinander ändern.
Formal lässt sich die Gradientenverschränkung dadurch charakterisieren, dass die Änderung der ausgewählten und der abgelehnten Wahrscheinlichkeit vom inneren Produkt zwischen dem Gradienten der ausgewählten Log-Wahrscheinlichkeit und dem Gradienten der abgelehnten Log-Wahrscheinlichkeit abhängt. Diese Verflechtung führt zu synchronisierten Änderungen der ausgewählten und der abgelehnten Log-Wahrscheinlichkeit, wenn das innere Produkt im Verhältnis zu ihren individuellen Normen "groß" ist, was wir als "Gradientenbedingung" bezeichnen. Darüber hinaus werden die genauen Definitionen von "groß" für verschiedene margenbasierte Algorithmen durch den Begriff der "Gradientenstärke" erfasst.
Diese Forschungsarbeit beleuchtet ein häufiges Problem bei der Ausrichtung von Sprachmodellen auf der Basis von Margen, die sogenannte Gradientenverschränkung. Dieses Phänomen kann zu unerwünschtem Verhalten führen, z. B. zu einem Anstieg der Wahrscheinlichkeit unerwünschter Antworten oder zu einer Abnahme der Wahrscheinlichkeit erwünschter Antworten. Das Verständnis der Gradientenverschränkung ist entscheidend für die Entwicklung robusterer und zuverlässigerer Sprachmodelle.