Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die fortschreitende Entwicklung im Bereich der Künstlichen Intelligenz (KI) hat in den letzten Jahren beeindruckende Fortschritte hervorgebracht, insbesondere bei der Generierung von Texten und Bildern. Doch bei der Erstellung von Videos und der Fähigkeit, komplexe Schlussfolgerungen zu ziehen, scheinen aktuelle KI-Modelle an fundamentale Grenzen zu stoßen. Jüngste Forschungsergebnisse deuten darauf hin, dass die reine Erhöhung der Datenmenge diese Probleme nicht lösen wird, sondern tiefgreifendere architektonische Veränderungen erfordert.
Video-KI-Modelle, die in der Lage sind, kohärente und logisch konsistente Videosequenzen zu generieren, stellen eine der größten Herausforderungen in der KI-Forschung dar. Während sie visuell beeindruckende Ergebnisse liefern können, offenbaren sich bei Aufgaben, die ein tieferes Verständnis von Kausalität, Physik oder komplexen Zusammenhängen erfordern, deutliche Schwächen. Ein internationales Konsortium von 32 Institutionen hat mit der Veröffentlichung der "Very Big Video Reasoning Suite" (VBVR) einen neuen Maßstab für das visuelle Schlussfolgern in Videos gesetzt. Dieses Dataset, das mit über zwei Millionen Bildern und einer Million Videoclips das bisher größte seiner Art ist, soll die systematische Untersuchung dieser Fähigkeiten ermöglichen.
Die Ergebnisse der VBVR-Benchmarks sind aufschlussreich. Menschliche Probanden erreichen einen durchschnittlichen Wert von 0,974. Im Vergleich dazu erzielt selbst das führende proprietäre Modell, OpenAI's Sora 2, lediglich einen Wert von 0,546. Google Deepmind's Veo 3.1 folgt mit 0,480, Runway Gen-4 Turbo mit 0,403 und Kuaishou's Kling 2.6 mit 0,369. Auch Open-Source-Modelle wie Wan2.2, CogVideoX, HunyuanVideo und LTX-2 liegen mit Werten zwischen 0,273 und 0,371 deutlich zurück. Dies unterstreicht eine erhebliche Lücke zwischen der Leistungsfähigkeit menschlicher Kognition und der aktuellen Generation von Video-KI-Modellen in Bezug auf Schlussfolgerungsaufgaben.
Die VBVR-Benchmarks verzichten bewusst auf die Verwendung eines Sprachmodells als Bewertungsinstanz. Stattdessen werden regelbasierte Scores für räumliche Präzision, Pfadkorrektheit und logische Validität eingesetzt, da die meisten Aufgaben eine eindeutig korrekte Lösung besitzen. Diese automatischen Bewertungen wurden durch Abgleich mit menschlichen Urteilen validiert und zeigten eine hohe statistische Übereinstimmung.
Eine bemerkenswerte Erkenntnis der Studie ist die Leistung von VBVR-Wan2.2, einer feinabgestimmten Version des Open-Source-Modells Wan2.2. Es erreichte einen Gesamtscore von 0,685, eine Steigerung von 84,6 Prozent gegenüber dem Basismodell, und übertraf damit alle getesteten proprietären Systeme. Dies deutet darauf hin, dass gezielte Optimierungen und Anpassungen an spezifische Datensätze das Potenzial haben, die Leistung erheblich zu verbessern.
Die Skalierungsstudie zeigt jedoch auch eine komplexere Realität auf: Obwohl die Leistung bei bekannten Aufgabentypen mit etwa 400.000 Trainingsbeispielen auf 0,771 ansteigt, stagniert sie danach. Bei völlig neuen Aufgabentypen erreicht sie maximal 0,610, was immer noch 15 Prozentpunkte unter der Leistung bei bekannten Aufgaben liegt. Dies wird von den Forschenden als fundamentaler Engpass in den aktuellen Video-Generierungsarchitekturen interpretiert, der suggeriert, dass mehr Daten allein das Problem nicht lösen werden.
Die qualitative Analyse, insbesondere der Vergleich zwischen VBVR-Wan2.2 und Sora 2, beleuchtet ein zentrales Problem: Wenn ein Modell während der Generierung willkürlich Szenenelemente verändert – wie Hintergründe, Anordnungen oder Objektidentitäten – werden Zwischenzustände unzuverlässig. Jede darauf aufbauende Schlussfolgerung verliert somit an Validität.
Beispielsweise führte Sora 2 bei einer Löschaufgabe unnötige Umordnungen durch, nachdem das Zielobjekt entfernt wurde, während VBVR-Wan2.2 nur die angeforderte Aktion ausführte. Bei einer Rotationsaufgabe konnte Sora 2 nicht zwischen der Zielregion und dem zu manipulierenden Objekt unterscheiden. VBVR-Wan2.2 zeigte zwar unerwartete Fähigkeiten, die über sein Training hinausgingen, wie konsistente Vervollständigungsstrategien für Symmetrieaufgaben, doch traten bei längeren Sequenzen weiterhin Flackern und Duplikationen auf.
Eine Korrelationsanalyse der Modelle zeigte interessante Muster in der Entwicklung kognitiver Fähigkeiten. Modelle, die bei Wissensaufgaben gut abschnitten, waren tendenziell auch stark bei räumlichen Aufgaben, was Parallelen zur neurologischen Forschung über die Rolle des Hippocampus bei Navigation und konzeptuellem Lernen aufweist. Weniger intuitiv ist die Beobachtung, dass eine starke Wissensleistung mit einer Schwäche in der Wahrnehmung korreliert. Abstraktionsfähigkeiten korrelierten nicht positiv mit anderen Fähigkeiten; Modelle, die in Abstraktionsaufgaben hervorragten, zeigten tendenziell Schwächen in Transformations- und räumlichen Schlussfolgerungen.
Die Forschenden betonen, dass architektonische Fortschritte wie die Zustandsverfolgung (State Tracking) und Selbstkorrekturmechanismen notwendig sind, um die identifizierte Leistungsgrenze zu überwinden. Dies deutet darauf hin, dass die Lösung nicht in der Quantität der Daten oder der Größe der Modelle liegt, sondern in einer fundamentalen Neugestaltung ihrer internen Arbeitsweise. Aktuelle KI-Modelle haben Schwierigkeiten, ihre eigenen Fehler zu erkennen und zu korrigieren. Dieses Phänomen wird als "iteratives Schlussfolgern" bezeichnet, bei dem Modelle, anstatt neue Erkenntnisse zu generieren, dazu neigen, in selbstverstärkende Schleifen zu geraten und ihre eigenen Ausgaben zu wiederholen oder umzuformulieren.
Die Annahme, dass mehr Rechenleistung und Daten stets zu besseren Ergebnissen führen, wird zunehmend hinterfragt. Forschungsergebnisse deuten darauf hin, dass KI-Modelle oft unnötige Rechenressourcen für einfache Probleme verschwenden und gleichzeitig bei schwierigen Aufgaben an Leistung verlieren, wenn sie mehr "Denkzeit" erhalten. Dieses "Overthinking" kann zu längeren Schlussfolgerungsketten führen, die Fehler, zirkuläre Logik oder irrelevante Abschweifungen enthalten und die endgültige Antwort beeinträchtigen.
Ein Kernproblem ist die mangelnde Fähigkeit der Modelle, die Schwierigkeit einer Aufgabe einzuschätzen und ihre Rechenressourcen entsprechend anzupassen. Sie generieren oft lange Schlussfolgerungsketten, unabhängig davon, ob dies sinnvoll ist. Dies erfordert die Entwicklung intelligenterer Allokationsstrategien für Rechenleistung.
Die aktuelle Diskussion betont, dass das Problem des Schlussfolgerns in der KI nicht primär ein Problem der Datenmenge, sondern der Datenstrategie ist. Qualität vor Quantität wird als entscheidend erachtet. Datensätze, die widersprüchlich, veraltet oder unüberprüfbar sind, verhindern, dass die KI stabile Repräsentationen der Realität aufbaut. Stattdessen lernt sie Muster aus Rauschen, was die Illusion von Intelligenz ohne tatsächliches Verständnis erzeugt.
Um die Grenzen des Schlussfolgerns in Video-KI-Modellen zu überwinden, sind architektonische Innovationen erforderlich. Dazu gehören:
Diese Erkenntnisse markieren einen Wendepunkt in der KI-Forschung, der über die bloße Skalierung hinausgeht. Sie fordern eine Neukonzeption der Art und Weise, wie KI-Modelle Informationen verarbeiten, Schlussfolgerungen ziehen und ihre eigenen Denkprozesse überwachen. Die Zukunft der KI könnte darin liegen, nicht nur "härter zu denken", sondern auch "intelligenter zu denken" – mit einem Fokus auf Metakognition und die Fähigkeit, die eigenen Grenzen zu erkennen und zu überwinden.
Die Debatte um die Leistungsgrenzen von generativer KI, insbesondere bei Video-Modellen, zeigt, dass die Branche an einem Punkt angelangt ist, an dem die bloße Vergrößerung von Modellen und Datensätzen nicht mehr ausreicht, um signifikante Fortschritte im Bereich des logischen Schlussfolgerns zu erzielen. Es bedarf eines Paradigmenwechsels, der sich auf architektonische Innovationen und eine tiefere Integration von kognitiven Prinzipien konzentriert, um die KI auf die nächste Stufe der Intelligenz zu heben.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen