Die rasante Entwicklung der künstlichen Intelligenz (KI) hat in den letzten Jahren in vielen Bereichen beeindruckende Fortschritte erzielt. Ein bemerkenswerter Durchbruch ist die Fähigkeit von KI-Modellen, Videospiele zu simulieren, indem sie lediglich Gameplay-Aufnahmen analysieren. Ein solches Modell, MarioVGG, hat gezeigt, dass es möglich ist, das klassische Nintendo-Spiel Super Mario Bros. zu simulieren, nachdem es entsprechende Videoclips analysiert hat.
MarioVGG wurde von der Krypto-nahen KI-Firma Virtuals Protocol entwickelt. Das Modell wurde darauf trainiert, plausible Videos von Super Mario Bros. zu generieren, die auf Benutzereingaben reagieren. Trotz einiger offensichtlicher Fehler und einer langsamen Verarbeitungsgeschwindigkeit zeigt das Modell beeindruckende Ergebnisse, die auf eine mögliche Zukunft hinweisen, in der KI-gestützte Videogenerierung die herkömmliche Spielentwicklung und Spiel-Engines ersetzen könnte.
Um MarioVGG zu trainieren, verwendeten die Forscher eine öffentlich zugängliche Datenbank mit Super Mario Bros.-Gameplay. Diese Datenbank enthielt 280 Level an Input- und Bilddaten, die für maschinelles Lernen aufbereitet wurden. Insgesamt umfasste das Dataset mehr als 737.000 einzelne Frames. Für die Evaluierung wurde das Level 1-1 aus dem Training ausgeschlossen.
Das Training des Modells erfolgte auf einer einzelnen NVIDIA RTX 4090 GPU und dauerte etwa 48 Stunden. Während des Trainingsprozesses wurden die Daten in 35-Frame-Blöcke unterteilt, um das Modell darauf vorzubereiten, die unmittelbaren Ergebnisse verschiedener Eingaben zu lernen. Um das Gameplay zu vereinfachen, konzentrierten sich die Forscher auf zwei mögliche Eingaben: "nach rechts laufen" und "nach rechts laufen und springen".
Die generierten Sequenzen des MarioVGG-Modells umfassen nur wenige Frames, wobei der letzte Frame einer Sequenz als Ausgangspunkt für die nächste verwendet wird. Auf diese Weise können Gameplay-Videos von beliebiger Länge erstellt werden, die dennoch kohärentes und konsistentes Gameplay zeigen.
Um Effizienz zu gewährleisten, werden die Ausgangsframes von der NES-Auflösung 256x240 auf eine viel gröbere 64x48 Auflösung heruntergerechnet. Zudem werden 35 Frames Videozeit in nur sieben generierte Frames komprimiert, was zu einer viel raueren Darstellung führt als das echte Spieloutput. Trotz dieser Einschränkungen benötigt MarioVGG sechs Sekunden, um eine sechs-Frame-Videosequenz zu generieren, was etwa eine halbe Sekunde Video darstellt.
Wie bei allen probabilistischen KI-Modellen zeigt MarioVGG gelegentlich unbrauchbare Ergebnisse. Dazu gehören das Ignorieren von Benutzereingaben oder das Erzeugen offensichtlicher visueller Fehler, wie Mario, der in Hindernissen landet oder durch sie hindurchläuft, unterschiedliche Farben annimmt oder für mehrere Frames verschwindet.
Die Forscher von Virtuals Protocol sind der Meinung, dass längere Trainingszeiten mit vielfältigeren Gameplay-Daten helfen könnten, diese Probleme zu beheben. Ziel ist es, ein zuverlässiges und kontrollierbares Videospiel-Generierungsmodell zu entwickeln, das die herkömmliche Spielentwicklung und Spiel-Engines möglicherweise vollständig ersetzen könnte.
Das MarioVGG-Projekt zeigt, dass auch begrenzte Trainingsdaten und Algorithmen ausreichen können, um überzeugende Modelle für grundlegende Spiele zu erstellen. Während das Modell noch erhebliche Herausforderungen bewältigen muss, stellt es einen wichtigen Schritt in Richtung einer Zukunft dar, in der KI-gestützte Videospiel-Generierung eine zentrale Rolle in der Spieleentwicklung spielen könnte.