Reinforcement Learning from Human Feedback (RLHF) ist ein vielversprechender Ansatz zur Feinabstimmung von Diffusionsmodellen (DMs) für die visuelle Generierung. Herkömmliche On-Policy-Strategien werden jedoch durch die Generalisierungsfähigkeit des Belohnungsmodells begrenzt. Off-Policy-Ansätze hingegen erfordern große Mengen an schwierig zu beschaffenden, paarweise von Menschen annotierten Daten, insbesondere bei visuellen Generierungsaufgaben. Um die Einschränkungen von On-Policy- und Off-Policy-RLHF zu überwinden, wurde eine neue Methode zur Präferenzoptimierung entwickelt, die DMs mit Präferenzen in Einklang bringt, ohne sich auf Belohnungsmodelle oder paarweise von Menschen annotierte Daten zu verlassen.
Eine neue Methode zur Präferenzoptimierung
Die neue Methode namens Semi-Policy Preference Optimization (SePPO) nutzt frühere Checkpoints als Referenzmodelle und verwendet sie zur Generierung von On-Policy-Referenzsamples, die "verlierende Bilder" in Präferenzpaaren ersetzen. Dieser Ansatz ermöglicht die Optimierung unter Verwendung von ausschließlich Off-Policy-"Gewinnerbildern".
Darüber hinaus wurde eine Strategie zur Auswahl von Referenzmodellen entwickelt, die die Erkundung im Richtlinienraum erweitert. Anstatt Referenzsamples einfach als negative Beispiele für das Lernen zu behandeln, wurde ein ankerbasiertes Kriterium entwickelt, um zu beurteilen, ob es sich bei den Referenzsamples wahrscheinlich um "Gewinner-" oder "Verliererbilder" handelt, sodass das Modell selektiv aus den generierten Referenzsamples lernen kann. Dieser Ansatz mildert Leistungseinbußen, die durch die Unsicherheit in der Qualität der Referenzsamples verursacht werden.
SePPO: Zwei Herausforderungen meistern
SePPO adressiert zwei wesentliche Herausforderungen im Bereich der visuellen Generierung mittels RLHF:
- **Eingeschränkte Generalisierung von Belohnungsmodellen:** On-Policy-Methoden, die auf Belohnungsmodelle setzen, leiden oft unter deren beschränkter Fähigkeit, gelernte Belohnungssignale auf neue, ungesehene Daten zu übertragen.
- **Bedarf an umfangreichen, annotierten Datensätzen:** Off-Policy-Methoden benötigen riesige Datensätze mit menschlichen Bewertungen, um sinnvolle Präferenzen zu lernen. Die Erstellung solcher Datensätze ist jedoch aufwendig und kostspielig.
Funktionsweise von SePPO
SePPO umgeht diese Hürden durch einen zweistufigen Ansatz:
1. **Generierung von Referenzsamples:** Anstelle von "Verliererbildern" aus annotierten Datensätzen nutzt SePPO Referenzmodelle (frühere Versionen des Modells), um Referenzsamples zu generieren. Diese dienen als Platzhalter für die "Verliererbilder" und ermöglichen das Training mit ausschließlich "Gewinnerbildern".
2. **Selektive Einbeziehung von Referenzsamples:** SePPO behandelt Referenzsamples nicht blind als negativ. Ein ankerbasiertes Kriterium bewertet die Qualität der Referenzsamples im Vergleich zum aktuellen Modell. Nur Samples, die wahrscheinlich schlechter sind als die vom aktuellen Modell generierten Bilder, werden für die Optimierung herangezogen.
Validierung und Ergebnisse
SePPO wurde anhand von Text-zu-Bild- und Text-zu-Video-Benchmarks validiert und übertraf dabei alle bisherigen Ansätze in Bezug auf die Qualität der generierten Bilder und Videos.
Die Methode zeigte, dass sie in der Lage ist, Diffusionsmodelle effektiv an menschlichen Präferenzen auszurichten, ohne auf teure Belohnungsmodelle oder umfangreiche annotierte Datensätze angewiesen zu sein. Dies eröffnet neue Möglichkeiten für die Entwicklung von leistungsfähigeren und effizienteren visuellen Generierungsmodellen.
Fazit
SePPO stellt einen wichtigen Fortschritt im Bereich der Präferenzoptimierung für Diffusionsmodelle dar. Die Fähigkeit des Modells, aus "Gewinnerbildern" zu lernen und gleichzeitig die potenziellen Nachteile von Referenzsamples zu minimieren, macht es zu einem vielversprechenden Ansatz für zukünftige Forschungen in der visuellen Generierung. Die Entwicklung von Methoden, die den Bedarf an aufwendigen menschlichen Annotationen reduzieren, ist entscheidend, um die Skalierbarkeit und Praktikabilität von RLHF für visuelle Anwendungen voranzutreiben.
http://arxiv.org/abs/2410.05255
https://arxiv.org/html/2410.05255v1
https://github.com/dwanzhang-ai/seppo
https://paperreading.club/page?id=257180
https://mapo-t2i.github.io/
https://arxiv-sanity-lite.com/
https://openaccess.thecvf.com/content/CVPR2024/papers/Wallace_Diffusion_Model_Alignment_Using_Direct_Preference_Optimization_CVPR_2024_paper.pdf
https://paperswithcode.com/latest
https://proceedings.neurips.cc/paper_files/paper/2023/file/de8bd6b2b01cfa788e63f62e5b9a99b9-Paper-Conference.pdf
https://openaccess.thecvf.com/content/CVPR2024/html/Wallace_Diffusion_Model_Alignment_Using_Direct_Preference_Optimization_CVPR_2024_paper.html