In den letzten Jahren haben Fortschritte in der Künstlichen Intelligenz, insbesondere im Bereich der großen, vortrainierten Text-zu-Bild-Modelle, beeindruckende Fähigkeiten zur hochwertigen, menschenzentrierten Bildgenerierung gezeigt. Die Herausforderung, die Identität eines Gesichts in verschiedenen Kontexten konsistent zu halten, bleibt jedoch bestehen. Die bestehenden Methoden können weder eine stabile Identitätserhaltung gewährleisten noch eine flexible Bearbeitbarkeit ermöglichen, selbst wenn mehrere Bilder jeder Person während des Trainings verwendet werden.
Eine aktuelle Studie mit dem Namen "StableIdentity" stellt nun eine Methode vor, mit der es möglich ist, die Identität einer Person mit nur einem einzigen Gesichtsbild konsistent in unterschiedliche Kontexte einzufügen. Diese Neuerung könnte die Art und Weise, wie Bilder und Videos für verschiedene Anwendungen produziert werden, grundlegend verändern.
Die "StableIdentity" Methode verwendet einen Gesichtsencoder mit einer Identitätsvorgabe, um das Eingabegesicht zu kodieren. Anschließend wird die Gesichtsrepräsentation in einen Raum mit einer bearbeitbaren Vorgabe, die aus Prominentennamen konstruiert wurde, übertragen. Durch die Kombination von Identitäts- und Bearbeitbarkeitsvorgaben kann die gelernte Identität in verschiedene Kontexte eingefügt werden. Darüber hinaus wurde ein spezieller Diffusionsverlust in zwei Phasen entworfen, der die pixelgenaue Wahrnehmung des Eingabegesichts verbessern und gleichzeitig die Vielfalt der Generierung aufrechterhalten soll.
Die umfangreichen Experimente der Forscherinnen und Forscher zeigen, dass ihre Methode die bisherigen Anpassungsmethoden übertrifft. Bemerkenswert ist, dass sie die erste Methode sind, die die direkt von einem einzelnen Bild gelernte Identität in die Video- und 3D-Generierung einbindet, ohne dass eine Feinabstimmung erforderlich ist. Dieser Ansatz könnte ein wichtiger Schritt sein, um Bild-, Video- und 3D-Anpassungsmodelle zu vereinheitlichen.
Die Entwicklung von "StableIdentity" ist nur ein Beispiel für die rasante Entwicklung im Bereich der KI-gestützten Bild- und Videoerstellung. Ein anderes wegweisendes Projekt ist "Imagen", ein Text-zu-Bild-Diffusionsmodell, das eine bisher unerreichte Photorealität und ein tiefes Verständnis von Sprache bietet. Imagen basiert auf der Leistungsfähigkeit großer Transformer-Sprachmodelle, die Text verstehen, und nutzt die Stärke von Diffusionsmodellen für die hochauflösende Bildgenerierung.
Das Besondere an Imagen ist, dass es zeigt, wie wirksam große, vortrainierte Sprachmodelle für die Text-zu-Bild-Aufgabe sind. Interessanterweise ist die Skalierung der Größe des Sprachmodells wichtiger als die Skalierung der Größe des Diffusionsmodells. Imagen erreicht einen neuen Bestwert für den FID-Score (Fréchet Inception Distance) auf dem COCO-Datensatz und wird von menschlichen Bewertern in Bezug auf die Bild-Text-Übereinstimmung als ebenbürtig mit den COCO-Daten selbst eingestuft.
Um Text-zu-Bild-Modelle noch umfassender zu bewerten, wurde "DrawBench" eingeführt, ein umfassender und herausfordernder Benchmark für Text-zu-Bild-Modelle. In Vergleichen, die von Menschen durchgeführt wurden, wurde Imagen gegenüber anderen Modellen bevorzugt, sowohl in Bezug auf die Qualität der Probe als auch auf die Bild-Text-Übereinstimmung.
Trotz der beeindruckenden Fortschritte bringen Text-zu-Bild-Modelle wie Imagen auch Herausforderungen und ethische Bedenken mit sich, insbesondere in Bezug auf die potenzielle Verbreitung von Stereotypen und Vorurteilen. Die Forschungsgruppe hinter Imagen hat sich aufgrund dieser Bedenken entschieden, den Code oder eine öffentliche Demo vorerst nicht zu veröffentlichen. Sie betonen die Notwendigkeit, Verantwortungsbewusstsein in die Entwicklung und Freigabe solcher Modelle einzubeziehen.
Die KI-Modelle "StableIdentity" und Imagen zeigen beispielhaft, wie KI-gestützte Bildgenerierung nicht nur die Grenzen der Kreativität erweitert, sondern auch neue Fragen zur Verantwortung und Ethik in der Technologie aufwirft. Mit der weiteren Entwicklung dieser Technologien ist es entscheidend, dass Forschung und Entwicklung in einer Weise voranschreiten, die nicht nur technische Innovationen fördert, sondern auch soziale Verantwortung und ethische Überlegungen berücksichtigt.