Meta präsentiert TRIBE v2 ein KI-Modell zur Vorhersage menschlicher Gehirnaktivitäten

Kategorien:

No items found.

Freigegeben:

March 29, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Meta hat das KI-Modell TRIBE v2 vorgestellt, das Gehirnaktivitäten als Reaktion auf visuelle, auditive und sprachliche Reize vorhersagen kann.
Das Modell wurde mit über 1.000 Stunden fMRT-Daten von 720 Probanden trainiert und erreicht dabei eine hohe Auflösung von 70.000 Voxel.
TRIBE v2 kann etablierte neurowissenschaftliche Erkenntnisse auf dem Computer replizieren und somit die Planung und Durchführung von Experimenten beschleunigen und Kosten senken.
Trotz seiner Leistungsfähigkeit hat das Modell Einschränkungen, wie die indirekte Messung der Gehirnaktivität durch fMRT und die Modellierung des Gehirns als passiven Empfänger.
Meta stellt den Code, die Modellgewichte und eine interaktive Demo öffentlich zur Verfügung, um die Forschung zu fördern.

Die Forschung an der Schnittstelle von Künstlicher Intelligenz (KI) und Neurowissenschaften schreitet kontinuierlich voran. Eine aktuelle Entwicklung, die in Fachkreisen auf großes Interesse stößt, ist die Vorstellung des KI-Modells TRIBE v2 durch Meta. Dieses Modell ist in der Lage, die Reaktionen des menschlichen Gehirns auf Bilder, Geräusche und Sprache vorherzusagen. Diese Innovation könnte die Neurowissenschaften nachhaltig beeinflussen, indem sie neue Wege für die Forschung und möglicherweise auch für klinische Anwendungen eröffnet.

Einblicke in die Funktionsweise von TRIBE v2

TRIBE v2, ein Akronym für "TRImodal Brain Encoder", ist ein sogenanntes Fundamentmodell, das darauf ausgelegt ist, die menschliche Gehirnaktivität unter verschiedenen natürlichen und experimentellen Bedingungen zu prognostizieren. Es wurde auf einer umfangreichen Datengrundlage von über 1.000 Stunden funktioneller Magnetresonanztomographie (fMRT)-Daten von 720 Probanden trainiert. fMRT misst indirekt die Gehirnaktivität durch die Erfassung von Veränderungen im Blutfluss und Sauerstoffgehalt.

Die Architektur des Modells

Das Modell verarbeitet drei Arten von Eingaben: Video, Audio und Text. Jede dieser Modalitäten wird zunächst durch ein vortrainiertes KI-Modell von Meta geleitet:

Für Text kommt Llama 3.2 zum Einsatz.
Für Audio wird Wav2Vec-Bert-2.0 verwendet.
Für Video dient Video-JEPA-2.

Diese Modelle wandeln die Rohdaten in sogenannte Embeddings um, die die wesentlichen Informationen der visuellen, auditiven oder sprachlichen Reize erfassen. Ein nachgeschalteter Transformer verarbeitet diese Darstellungen gemeinsam, um Muster über verschiedene Reize, Aufgaben und Personen hinweg zu identifizieren. Eine abschließende personenspezifische Schicht übersetzt die Ausgabe in eine Gehirnkarte mit etwa 70.000 Voxel – den dreidimensionalen Pixeln, aus denen ein fMRT-Scan besteht.

Vorteile gegenüber herkömmlichen Messmethoden

Ein zentraler Vorteil von TRIBE v2 liegt in seiner Fähigkeit, Vorhersagen zu generieren, die weniger Rauschen enthalten als einzelne fMRT-Messungen. Individuelle fMRT-Bilder sind naturgemäß verrauscht, beeinflusst durch Faktoren wie Herzschlag, Kopfbewegungen und Geräteartefakte. Um eine typische Gehirnreaktion auf einen bestimmten Reiz zu ermitteln, müssen Forscher üblicherweise viele Scans mitteln. TRIBE v2 umgeht diesen Schritt, indem es direkt eine angepasste Durchschnittsreaktion vorhersagt. In Tests korrelierte diese Vorhersage stärker mit dem tatsächlichen Gruppendurchschnitt als die Scans der meisten einzelnen Probanden. Dies war besonders ausgeprägt im Human Connectome Project Datensatz, der mit einem 7-Tesla-Scanner erfasst wurde und eine deutlich höhere Signalqualität als die Standard-3-Tesla-Geräte bietet.

Das Modell zeigt zudem eine bemerkenswerte Generalisierungsfähigkeit: Es kann Vorhersagen für neue Probanden treffen, ohne neu trainiert werden zu müssen. Im Vergleich zu optimierten linearen Modellen, die zuvor als Standardmethode galten, liefert TRIBE v2 signifikante Verbesserungen in der Genauigkeit. Die Vorgängerversion, TRIBE v1, die auf deutlich weniger Daten trainiert wurde und eine geringere Auflösung besaß, gewann bereits den Algonauts 2025 Wettbewerb und übertraf dabei 263 andere Teams. Die Vorhersagegenauigkeit von TRIBE v2 skaliert stetig mit der Menge der Trainingsdaten, was auf weitere Verbesserungen bei wachsenden fMRT-Datenbanken hindeutet.

Anwendungspotenziale und wissenschaftliche Implikationen

Die Forscher haben TRIBE v2 sowohl mit alltäglichen Reizen wie Filmen und Podcasts, bei denen mehrere sensorische Eingaben gleichzeitig das Gehirn erreichen, als auch mit isolierten Reizen, die typisch für die klassische Neurowissenschaft sind, getestet. In diesen kontrollierten Szenarien konnte das Modell bekannte spezialisierte Gehirnregionen für Gesichter, Orte, Körper und Schriftzeichen korrekt identifizieren. Bei Sprachexperimenten lokalisierte es das Sprachnetzwerk, unterschied zwischen emotionaler und physischer Schmerzverarbeitung und zeigte die erwartete stärkere Aktivierung in der linken Hemisphäre für vollständige Sätze im Vergleich zu Wortlisten.

Diese Ergebnisse stimmen mit Erkenntnissen aus jahrzehntelanger empirischer Forschung an realen Probanden überein. Für die Neurowissenschaften bedeutet dies, dass zukünftige Experimente vor der teuren und zeitaufwändigen Durchführung im Labor auf dem Computer simuliert werden könnten. Dies könnte die Effizienz der Forschung erheblich steigern und den Zugang zu komplexen Experimenten erleichtern.

Multisensorische Integration

Durch das selektive Deaktivieren einzelner Eingabekanäle kann TRIBE v2 aufzeigen, wie stark jeder Sinn die Aktivität in spezifischen Gehirnregionen beeinflusst. Die Ergebnisse bestätigen bestehende neurowissenschaftliche Erkenntnisse: Audio sagt die Aktivität nahe des auditorischen Kortex am besten voraus, Video korreliert mit dem visuellen Kortex, und Text aktiviert Sprachbereiche und Teile des Frontallappens. In Regionen, in denen das Gehirn Eingaben aus mehreren Sinnen kombiniert, führt die Nutzung aller drei Kanäle zu den größten Verbesserungen. An der Schnittstelle von Temporal-, Parietal- und Okzipitallappen kann die Vorhersagegenauigkeit im Vergleich zu einem einzelnen Kanal um bis zu 50 Prozent steigen.

Eine statistische Analyse der letzten Schicht des Modells identifizierte zudem fünf Muster, die bekannten funktionellen Gehirnnetzwerken zugeordnet werden können: den primären auditorischen Kortex, das Sprachnetzwerk, die Bewegungserkennung, das Default Mode Network und das visuelle System.

Grenzen und zukünftige Perspektiven

Trotz seiner beeindruckenden Fähigkeiten weist TRIBE v2 auch signifikante Einschränkungen auf. Die fMRT-Technologie misst die Gehirnaktivität nur indirekt über den Blutfluss, was mit einer Verzögerung von mehreren Sekunden verbunden ist. Die schnellen Dynamiken neuronaler Signale im Millisekundenbereich bleiben dabei verborgen. Das Modell deckt zudem nur drei sensorische Kanäle ab – Geruch, Tastsinn und Gleichgewichtssinn sind nicht berücksichtigt.

Grundsätzlich modelliert TRIBE v2 das Gehirn als passiven Empfänger sensorischer Eingaben. Es bildet nicht ab, wie das Gehirn aktiv Entscheidungen trifft oder Handlungen steuert. Auch Entwicklungsveränderungen oder klinische Zustände können derzeit nicht erfasst werden, was laut den Forschern jedoch ein Schwerpunkt für zukünftige Versionen ist.

Meta sieht drei Hauptanwendungsbereiche für das Modell:

Die Planung neurowissenschaftlicher Experimente.
Den Aufbau gehirnähnlicherer KI-Architekturen.
Die zukünftige Diagnose von Hirnerkrankungen.

Um die Forschung weiter zu beschleunigen, hat Meta den Code, die Modellgewichte und eine interaktive Demo öffentlich zugänglich gemacht. Dies ermöglicht es der globalen Forschungsgemeinschaft, auf dieser Grundlage aufzubauen und die Grenzen des Verständnisses von Gehirn und KI weiter zu verschieben.

Die Entwicklung von TRIBE v2 stellt einen wichtigen Schritt dar, um das menschliche Gehirn und seine komplexen Reaktionen besser zu verstehen. Während die Technologie noch in den Kinderschuhen steckt, bieten die erzielten Fortschritte vielversprechende Perspektiven für die Neurowissenschaften und die Entwicklung intelligenterer KI-Systeme.

Bibliographie:

Meta AI. (2026, 26. März). Introducing TRIBE v2: A Predictive Foundation Model Trained to Understand How the Human Brain Processes Complex Stimuli. Abgerufen am 29. Mai 2024. Meta AI. (2026, 26. März). A foundation model of vision, audition, and language for in-silico neuroscience. Abgerufen am 29. Mai 2024. Kemper, J. (2026, 27. März). Meta's new AI model predicts how your brain reacts to images, sounds, and speech. The Decoder. Abgerufen am 29. Mai 2024. Marchetti, E. (2026, 26. März). Meta TRIBE v2 Predicts Brain Activity From Any Media | Awesome Agents. Awesome Agents. Abgerufen am 29. Mai 2024. Moby. (2026, 27. März). Meta Built A Model That Predicts How Your Brain Reacts…Yay? Yahoo Tech. Abgerufen am 29. Mai 2024. NewsBytes. (2026, 27. März). Meta's TRIBE v2 predicts brain responses to pictures, sounds, text. Abgerufen am 29. Mai 2024. The Rundown AI. (2026, 26. März). Meta just open-sourced a model that predicts how your brain reacts to anything you see, hear, or read. Facebook. Abgerufen am 29. Mai 2024.