Neue Initiativen von Metas FAIR-Team zur Verbesserung menschenähnlicher KI

Kategorien:
No items found.
Freigegeben:
April 18, 2025

Artikel jetzt als Podcast anhören

Metas FAIR-Team präsentiert fünf neue Projekte für menschenähnlichere KI

Das Fundamental AI Research (FAIR) Team von Meta hat fünf neue Projekte vorgestellt, die das Unternehmen seinem Ziel, fortschrittliche maschinelle Intelligenz (AMI) zu entwickeln, näher bringen sollen. Die neuen Entwicklungen konzentrieren sich vor allem auf die Verbesserung der KI-Wahrnehmung – der Fähigkeit von Maschinen, sensorische Informationen zu verarbeiten und zu interpretieren – sowie auf Fortschritte in den Bereichen Sprachmodelle, Robotik und kollaborative KI-Agenten.

Meta verfolgt das Ziel, Maschinen zu entwickeln, „die in der Lage sind, sensorische Informationen über die Welt um uns herum zu erfassen, zu verarbeiten und zu interpretieren und diese Informationen zu nutzen, um Entscheidungen mit menschenähnlicher Intelligenz und Geschwindigkeit zu treffen.“ Die fünf neuen Projekte stellen verschiedene, aber miteinander verbundene Bemühungen dar, dieses ambitionierte Ziel zu erreichen.

Perception Encoder: Schärfere „Sicht“ für KI

Im Zentrum der neuen Veröffentlichungen steht der Perception Encoder, ein umfangreicher Vision Encoder, der für verschiedene Bild- und Videoaufgaben entwickelt wurde. Vision Encoder fungieren als die „Augen“ von KI-Systemen und ermöglichen es ihnen, visuelle Daten zu verstehen.

Meta betont die zunehmende Herausforderung, Encoder zu entwickeln, die den Anforderungen fortschrittlicher KI gerecht werden. Diese müssen Bild und Video gleichermaßen effektiv verarbeiten, robust gegenüber schwierigen Bedingungen sein und auch potenziellen Angriffen standhalten. Der ideale Encoder sollte laut Meta eine breite Palette von Konzepten erkennen und gleichzeitig subtile Details unterscheiden – beispielsweise einen Stachelrochen am Meeresboden, einen kleinen Stieglitz im Hintergrund eines Bildes oder ein Aguti auf einer Nachtsichtkamera.

Meta behauptet, der Perception Encoder erziele „außergewöhnliche Leistungen bei der Zero-Shot-Klassifizierung und -Retrieval von Bildern und Videos und übertreffe dabei alle existierenden Open-Source- und proprietären Modelle für solche Aufgaben.“ Darüber hinaus sollen sich seine Wahrnehmungsstärken gut auf Sprachaufgaben übertragen lassen.

In Kombination mit einem großen Sprachmodell (LLM) soll der Encoder andere Vision Encoder in Bereichen wie der Beantwortung visueller Fragen (VQA), der Bildbeschreibung, dem Dokumentenverständnis und der Verknüpfung von Text mit bestimmten Bildregionen übertreffen. Er soll auch die Leistung bei Aufgaben verbessern, die traditionell schwierig für LLMs sind, wie das Verstehen räumlicher Beziehungen (z. B. „wenn sich ein Objekt hinter einem anderen befindet“) oder die Kamerabewegung relativ zu einem Objekt.

Perception Language Model (PLM): Offene Forschung im Bereich Vision-Sprache

Ergänzend zum Encoder wird das Perception Language Model (PLM) vorgestellt, ein offenes und reproduzierbares Vision-Sprachmodell, das auf komplexe visuelle Erkennungsaufgaben abzielt. PLM wurde mit großen synthetischen Datensätzen und offenen Vision-Sprachdatensätzen trainiert, explizit ohne Wissen aus externen proprietären Modellen zu destillieren.

Um Lücken in bestehenden Daten zum Videoverständnis zu schließen, hat das FAIR-Team 2,5 Millionen neue, von Menschen gekennzeichnete Stichproben gesammelt, die sich auf detaillierte Video-Fragenbeantwortung und räumlich-zeitliche Beschreibungen konzentrieren. Laut Meta ist dies der „größte Datensatz seiner Art, der bisher existiert.“

Meta Locate 3D: Situationsbewusstsein für Roboter

Meta Locate 3D schließt die Lücke zwischen Sprachbefehlen und physischen Aktionen. Dieses End-to-End-Modell soll es Robotern ermöglichen, Objekte in einer 3D-Umgebung anhand von natürlichsprachlichen Abfragen präzise zu lokalisieren.

Meta Locate 3D verarbeitet 3D-Punktwolken direkt von RGB-D-Sensoren. Bei einer textuellen Aufforderung wie „Blumenvase in der Nähe des Fernsehtisches“ berücksichtigt das System räumliche Beziehungen und den Kontext, um das richtige Objekt zu identifizieren und es beispielsweise von einer „Vase auf dem Tisch“ zu unterscheiden.

Dynamic Byte Latent Transformer: Effiziente und robuste Sprachmodellierung

Meta veröffentlicht nun die Modellgewichte für seinen Dynamic Byte Latent Transformer mit 8 Milliarden Parametern. Diese Architektur stellt eine Abkehr von traditionellen tokenbasierten Sprachmodellen dar und arbeitet stattdessen auf Byte-Ebene. Meta behauptet, dieser Ansatz erreiche eine vergleichbare Leistung bei gleichzeitig deutlich verbesserter Inferenzeffizienz und Robustheit.

Collaborative Reasoner: Fortschritte bei sozial intelligenten KI-Agenten

Das letzte Projekt, Collaborative Reasoner, befasst sich mit der komplexen Herausforderung, KI-Agenten zu entwickeln, die effektiv mit Menschen oder anderen KIs zusammenarbeiten können. Meta stellt fest, dass menschliche Zusammenarbeit oft zu besseren Ergebnissen führt, und zielt darauf ab, KI mit ähnlichen Fähigkeiten auszustatten, beispielsweise für Aufgaben wie Hilfe bei Hausaufgaben oder Vorbereitung auf Vorstellungsgespräche.

Diese fünf Veröffentlichungen unterstreichen Metas anhaltende Investitionen in die Grundlagenforschung der KI, insbesondere in die Entwicklung von Bausteinen für Maschinen, die die Welt auf menschenähnlichere Weise wahrnehmen, verstehen und mit ihr interagieren können.

Bibliographie: https://www.artificialintelligence-news.com/news/meta-fair-advances-human-like-ai-five-major-releases/ https://x.com/Gadget_Ry/status/1912899012937515447 https://www.artificialintelligence-news.com/categories/ai-companies/meta-facebook/ https://x.com/AlHadath_net/status/1912910216129052910 https://www.ariancaspiandata.com/newsdtl/12 https://en.wikipedia.org/wiki/Meta_AI https://ai.meta.com/research/ https://m.economictimes.com/tech/technology/meta-plans-major-investment-into-ai-powered-humanoid-robots/articleshow/118255578.cms https://www.youtube.com/watch?v=ei123SmRx4w
Was bedeutet das?

Wie können wir Ihnen heute helfen?

Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.