Stabilität AI, ein Unternehmen im Bereich der Künstlichen Intelligenz, hat kürzlich eine neue Entwicklungsstufe ihrer bildgenerierenden Modelle präsentiert. Die neueste Errungenschaft, das "Stable Cascade", ist eine Weiterentwicklung des bereits bekannten Würstchen-Architekturmodells. Dieses Modell zeichnet sich durch eine effiziente Text-zu-Bild-Generierung aus und verfolgt einen dreistufigen Ansatz, der eine einfache Anpassung und Training auf Verbraucherhardware ermöglicht.
Das Besondere an Stable Cascade ist die Aufteilung des Generierungsprozesses in drei Phasen: Der Latent Generator (Stufe C), der Latent Decoder (Stufen A und B) und schließlich die Generierung hochauflösender Bilder. In der ersten Phase werden Benutzereingaben in kompakte 24x24 Latente umgewandelt, die eine bemerkenswert hohe Kompression ermöglichen. Die darauffolgenden Stufen A und B dekodieren diese Latente zurück in hochauflösende Bilder. Durch diese Aufteilung kann die textkonditionale Generierung von der Dekodierung in den Pixelraum entkoppelt werden, was das Training und Feintuning vereinfacht und eine Kostenreduktion von bis zu 16-fach im Vergleich zu ähnlich großen Modellen wie dem Stable Diffusion ermöglicht.
Das Stable Cascade-Modell präsentiert sich in zwei Varianten für jede Stufe: Für Stufe C gibt es Modelle mit 1 Milliarde und 3,6 Milliarden Parametern, wobei das Modell mit 3,6 Milliarden Parametern die qualitativ hochwertigsten Ergebnisse liefert. Für Stufe B stehen Modelle mit 700 Millionen und 1,5 Milliarden Parametern zur Verfügung, wobei das 1,5-Milliarden-Modell eine feinere Detailwiedergabe ermöglicht. Die erwarteten VRAM-Anforderungen für die Inferenz liegen bei etwa 20 GB, können jedoch durch Verwendung der kleineren Modellvarianten weiter gesenkt werden.
In Leistungsvergleichen zeigte sich, dass Stable Cascade in Bezug auf Prompt-Übereinstimmung und ästhetische Qualität nahezu alle Vergleichsmodelle übertrifft. Darüber hinaus bietet das Modell trotz mehr Parametern schnellere Inferenzzeiten als das Stable Diffusion XL.
Zu den weiteren Funktionen von Stable Cascade gehören die Generierung von Bildvariationen und Bild-zu-Bild-Generierungen. Bildvariationen werden erzeugt, indem Bildembeddings aus einem gegebenen Bild extrahiert und dann dem Modell zurückgeführt werden. Bei der Bild-zu-Bild-Generierung wird einem gegebenen Bild einfach Rauschen hinzugefügt, das dann als Ausgangspunkt für die Generierung dient.
Mit der Veröffentlichung von Stable Cascade hat Stabilität AI den zugehörigen Code für Training, Feintuning, ControlNet und LoRA veröffentlicht. Dadurch wird es Benutzern ermöglicht, weiter mit dieser Architektur zu experimentieren. Zu den veröffentlichten ControlNets gehören Inpainting/Outpainting, Canny Edge und 2x Super Resolution, die zur Bildskalierung eingesetzt werden können.
Obwohl das Modell derzeit nicht für kommerzielle Zwecke verfügbar ist, bietet Stabilität AI über ihre Mitgliedschaftsseite und eine Entwicklerplattform Zugang zu anderen Bildmodellen für kommerzielle Anwendungen an.
Dieser Fortschritt in der Text-zu-Bild-Generierung ist ein weiterer Schritt in Richtung einer effizienteren und zugänglicheren KI-basierten Inhaltskreation und unterstreicht das Potential von Künstlicher Intelligenz in der kreativen Industrie. Mit dem Streben nach weiterer Vereinfachung und Kostensenkung könnte Stable Cascade eine breite Palette von Anwendungen in Forschung, Kunst, Design und Bildung ermöglichen.
Quellen:
- Stability AI News, "Introducing Stable Cascade", https://stability.ai/news/introducing-stable-cascade
- Hugging Face, Stability AI's Stable Cascade Model, https://huggingface.co/stabilityai/stable-cascade
- GitHub, Topics: Text-to-Image, https://github.com/topics/text-to-image
- Reddit Community StableDiffusion, https://www.reddit.com/r/StableDiffusion/comments/1apl92a/images_generated_by_stable_cascade_successor_to/