Meta präsentiert neue KI Technologien zur multimodalen Verarbeitung und Musikgenerierung

Kategorien:

No items found.

Freigegeben:

June 22, 2024

Meta Enthüllt Fünf Neue KI-Modelle für Multimodale Verarbeitung und Musikgenerierung

Meta hat fünf neue bedeutende KI-Modelle und Forschungsergebnisse vorgestellt, darunter multimodale Systeme, die sowohl Text als auch Bilder verarbeiten können, nächste Generation von Sprachmodellen, Musikgenerierung, KI-Spracherkennung und Bemühungen zur Verbesserung der Diversität in KI-Systemen.

Chameleon: Multimodale Text- und Bildverarbeitung

Zu den neuen Veröffentlichungen gehören Schlüsselkomponenten der 'Chameleon'-Modelle von Meta unter einer Forschungslizenz. Chameleon ist eine Familie multimodaler Modelle, die sowohl Text als auch Bilder gleichzeitig verstehen und generieren können – im Gegensatz zu den meisten großen Sprachmodellen, die typischerweise unimodal sind.

"Genau wie Menschen Wörter und Bilder gleichzeitig verarbeiten können, kann Chameleon sowohl Bild als auch Text gleichzeitig verarbeiten und liefern", erklärte Meta. "Chameleon kann jede Kombination von Text und Bildern als Eingabe verwenden und auch jede Kombination von Text und Bildern ausgeben."

Die potenziellen Anwendungsfälle sind nahezu unbegrenzt, von der Generierung kreativer Bildunterschriften bis hin zur Aufforderung neuer Szenen mit Text und Bildern.

Multi-Token-Vorhersage für Schnellere Sprachmodellierung

Meta hat auch vortrainierte Modelle für die Codevervollständigung veröffentlicht, die 'Multi-Token-Vorhersage' unter einer nicht-kommerziellen Forschungslizenz verwenden. Traditionelles Sprachmodelltraining ist ineffizient, da es nur das nächste Wort vorhersagt. Multi-Token-Modelle können mehrere zukünftige Wörter gleichzeitig vorhersagen, um schneller zu trainieren.

"Während [die Ein-Wort-]Ansatz einfach und skalierbar ist, ist er auch ineffizient. Es erfordert mehrere Größenordnungen mehr Text als das, was Kinder benötigen, um den gleichen Grad an Sprachflüssigkeit zu erlernen", sagte Meta.

JASCO: Verbessertes Text-zu-Musik-Modell

Auf der kreativen Seite ermöglicht Meta’s JASCO die Generierung von Musikclips aus Text und bietet dabei mehr Kontrolle durch die Akzeptanz von Eingaben wie Akkorden und Beats.

"Während bestehende Text-zu-Musik-Modelle wie MusicGen hauptsächlich auf Texteingaben für die Musikgenerierung angewiesen sind, ist unser neues Modell, JASCO, in der Lage, verschiedene Eingaben, wie Akkorde oder Beats, zu akzeptieren, um die Kontrolle über die generierten Musikausgaben zu verbessern", erklärte Meta.

AudioSeal: Erkennung von KI-generierter Sprache

Meta behauptet, dass AudioSeal das erste Audio-Watermarking-System ist, das speziell zur Erkennung von KI-generierter Sprache entwickelt wurde. Es kann die spezifischen Segmente identifizieren, die von KI innerhalb größerer Audioclips generiert wurden, und das bis zu 485-mal schneller als frühere Methoden.

"AudioSeal wird unter einer kommerziellen Lizenz veröffentlicht. Es ist nur eine von mehreren verantwortungsvollen Forschungslinien, die wir geteilt haben, um den Missbrauch von generativen KI-Tools zu verhindern", sagte Meta.

Verbesserung der Diversität in Text-zu-Bild-Modellen

Eine weitere wichtige Veröffentlichung zielt darauf ab, die Diversität von Text-zu-Bild-Modellen zu verbessern, die oft geografische und kulturelle Voreingenommenheiten aufweisen können.

Meta entwickelte automatische Indikatoren zur Bewertung potenzieller geografischer Ungleichheiten und führte eine große Studie mit über 65.000 Annotationen durch, um zu verstehen, wie Menschen weltweit die geografische Repräsentation wahrnehmen.

"Dies ermöglicht mehr Diversität und bessere Repräsentation in KI-generierten Bildern", sagte Meta. Der relevante Code und die Annotationen wurden veröffentlicht, um die Diversität in generativen Modellen zu verbessern.

Durch die öffentliche Freigabe dieser bahnbrechenden Modelle hofft Meta, die Zusammenarbeit zu fördern und Innovationen innerhalb der KI-Community voranzutreiben.

Bibliographie

- https://www.artificialintelligence-news.com/2024/06/19/meta-unveils-ai-models-multi-modal-processing-music-generation-more/
- https://www.pymnts.com/artificial-intelligence-2/2024/meta-releases-ai-models-that-generate-both-text-and-images/
- https://www.fortuneindia.com/enterprise/meta-releases-5-ai-models/117217
- https://about.fb.com/news/2024/06/releasing-new-ai-research-models-to-accelerate-innovation-at-scale/
- https://winbuzzer.com/2024/06/19/meta-fair-releases-advanced-ai-models-for-audio-and-visual-research-xcxwbn/
- https://www.globalbrandsmagazine.com/meta-text-image-music-generation-ai-models/
- https://ai.meta.com/tools/system-cards/multimodal-generative-ai-systems/
- https://encord.com/blog/ray-ban-meta-smart-glasses-with-multimodal-ai-and-apple-music/
- https://en.wikipedia.org/wiki/Generative_artificial_intelligence
- https://www.linkedin.com/pulse/metas-latest-ai-innovations-unveiled-namya-aankur-gupta

Was bedeutet das?