In der Welt der künstlichen Intelligenz (KI) und insbesondere im Bereich der Sprachverarbeitung spielen realistische Datensätze eine entscheidende Rolle. Sprache, wie wir sie im Alltag erleben, ist selten statisch. Ob in geschäftigen Umgebungen oder bei sich bewegenden Sprechern – die Dynamik der Klanglandschaft stellt eine Herausforderung für die Entwicklung robuster Spracherkennungsmodelle dar.
Bisherige Datensätze für Sprachmodelle basierten oft auf statischen Szenarien, die die Komplexität realer Umgebungen nur unzureichend abbilden. Die Simulation von Raumhall, einem zentralen Aspekt der Sprachwahrnehmung, war oft ungenau und konnte die Vielfalt von Materialien und Formen in realen Räumen nicht erfassen. Dies führte zu einer Diskrepanz zwischen den Trainingsdaten und realen Anwendungsszenarien, die die Leistungsfähigkeit der Modelle in der Praxis beeinträchtigte.
Um diese Herausforderungen zu bewältigen, haben Forscher das Toolkit SonicSim entwickelt. SonicSim ermöglicht die Generierung von hochgradig anpassbaren Daten für sich bewegende Schallquellen und verspricht damit eine neue Ära in der Spracherkennung. Basierend auf der etablierten Simulationsumgebung Habitat-sim, bietet SonicSim die Möglichkeit, komplexe Szenarien mit bewegten Schallquellen und realistischen akustischen Eigenschaften zu erstellen.
Die Stärke von SonicSim liegt in der detaillierten Simulation von Raumimpulsantworten (RIRs), die den Nachhall eines Klangs in einem Raum beschreiben. Durch die Berücksichtigung von Hindernissen, komplexen Raumgeometrien und unterschiedlichen Materialeigenschaften ermöglicht SonicSim eine bisher unerreichte akustische Genauigkeit.
Aufbauend auf SonicSim wurde SonicSet entwickelt, ein umfangreicher Datensatz, der speziell für die Bewertung von Sprachmodellen in dynamischen Szenarien konzipiert wurde. SonicSet zeichnet sich durch drei wesentliche Merkmale aus:
Um die Leistungsfähigkeit von SonicSim und SonicSet zu demonstrieren, wurden umfangreiche Tests mit verschiedenen Sprachseparations- und Sprachverbesserungsmodellen durchgeführt. Die Ergebnisse zeigen, dass Modelle, die mit SonicSet trainiert wurden, eine bessere Generalisierung auf reale Szenarien erreichen als Modelle, die auf herkömmlichen Datensätzen basieren.
SonicSim und SonicSet stellen einen bedeutenden Fortschritt in der Sprachverarbeitung dar. Durch die realistische Simulation von dynamischen Klanglandschaften ebnen sie den Weg für robustere und zuverlässigere Spracherkennungsmodelle, die in Zukunft eine Vielzahl von Anwendungen in Bereichen wie Robotik, Mensch-Computer-Interaktion und virtueller Realität ermöglichen werden.