Classifier-free Guidance (CFG) hat sich als entscheidend für die Verbesserung der Qualität und Ausrichtung von Inhalten, die durch Diffusionsmodelle generiert werden, erwiesen. Es ermöglicht eine präzisere Steuerung des Erzeugungsprozesses, indem die Übereinstimmung zwischen Eingabebedingungen und endgültiger Ausgabe erhöht wird. Hohe Guidance-Skalierungen in CFG führen jedoch oft zu unerwünschten Artefakten und Übersättigung in den erzeugten Inhalten.
Übersättigung tritt auf, wenn die Farbintensität in einem Bild übertrieben wird, was zu einem unnatürlichen und verfremdeten Aussehen führt. Artefakte hingegen sind unerwünschte Merkmale oder Muster, die im generierten Inhalt erscheinen und nicht mit dem gewünschten Ergebnis übereinstimmen. Diese Probleme können die Qualität der erzeugten Bilder erheblich beeinträchtigen und ihre Realitätsnähe mindern.
Eine neue Forschungsarbeit mit dem Titel "Eliminating Oversaturation and Artifacts of High Guidance Scales in Diffusion Models" stellt einen vielversprechenden Ansatz zur Bewältigung dieser Herausforderungen vor: Adaptive Projected Guidance (APG). APG stellt eine Modifikation der CFG-Aktualisierungsregel dar, die darauf abzielt, die Vorteile hoher Guidance-Skalierungen zu nutzen und gleichzeitig die damit verbundenen Nachteile zu minimieren.
APG basiert auf der Zerlegung des Aktualisierungsterms in CFG in zwei Komponenten: eine parallele und eine orthogonale Komponente in Bezug auf die Vorhersage des bedingten Modells. Die parallele Komponente ist hauptsächlich für die Übersättigung verantwortlich, während die orthogonale Komponente die Bildqualität verbessert. APG reduziert das Gewicht der parallelen Komponente, um eine hohe Qualität der erzeugten Inhalte zu erreichen, ohne eine Übersättigung zu verursachen. Darüber hinaus nutzt APG Erkenntnisse aus der Verbindung zwischen CFG und Gradientenanstieg, um eine neue Methode zur Neuskalierung und Implementierung von Momentum für die CFG-Aktualisierungsregel einzuführen.
Die experimentellen Ergebnisse zeigen, dass APG die Qualität der erzeugten Bilder in Bezug auf Metriken wie FID (Fréchet Inception Distance) und Recall verbessert und gleichzeitig die Übersättigung reduziert. APG ist kompatibel mit verschiedenen bedingten Diffusionsmodellen und -samplern und stellt somit eine überlegene Plug-and-Play-Alternative zu Standard-CFG dar.
Die Entwicklung von APG stellt einen wichtigen Schritt in der Weiterentwicklung von Diffusionsmodellen dar. Durch die effektive Bewältigung der Probleme der Übersättigung und Artefakte bei hohen Guidance-Skalierungen ebnet APG den Weg für die Erstellung von qualitativ hochwertigeren und realistischeren Inhalten. Zukünftige Forschung könnte sich auf die weitere Verbesserung der Effizienz und Anpassungsfähigkeit von APG sowie auf die Erforschung seiner Anwendbarkeit in anderen Bereichen wie der Text-zu-Bild-Synthese und der Videoerzeugung konzentrieren.