Ein internationales Forscherteam hat mit MOSEL (Massive Open-source compliant Speech data for European Languages) eine umfangreiche Sammlung von Open-Source-Sprachdaten für die 24 offiziellen Sprachen der Europäischen Union zusammengestellt. Das Projekt zielt darauf ab, die Entwicklung von offenen KI-Sprachmodellen in Europa voranzutreiben.
Die Sammlung von Trainingsdaten für leistungsstarke KI-Sprachmodelle stellt eine Herausforderung dar. Bisher dominierten englischsprachige Datensätze und proprietäre Systeme großer Technologieunternehmen.
Mit MOSEL soll sich dies nun ändern. Die Daten stammen aus 18 verschiedenen Quellen, darunter Projekte wie CommonVoice, LibriSpeech und VoxPopuli. Sie umfassen sowohl transkribierte Sprachaufnahmen als auch nicht-gelabelte Audiodaten. Besonders wertvoll sind die 505.000 Stunden transkribierter Daten.
Die Verteilung auf die Sprachen ist jedoch sehr ungleichmäßig. Während für Englisch über 437.000 Stunden gelabelte Daten vorliegen, gibt es für Sprachen wie Maltesisch oder Irisch nur wenige Stunden Material.
KI-gestützte Transkription erweitert Datenbasis
Um die Datenlage für ressourcenarme Sprachen zu verbessern, transkribierten die Forscher automatisch weitere 441.000 Stunden zuvor nicht-gelabelter Audiodaten. Sie nutzten dafür das KI-Modell Whisper von OpenAI.
Obwohl die automatische Transkription nicht perfekt ist, ermöglicht sie die Bereitstellung großer Mengen an Trainingsmaterial auch für Sprachen mit wenigen manuell transkribierten Daten. Die generierten Transkripte werden unter der Creative Commons CC-BY-Lizenz veröffentlicht, die eine freie Nutzung mit Namensnennung erlaubt.
Die Herausforderungen der automatischen Transkription zeigen sich besonders deutlich im Fall des Maltesischen. Hier erreichte das Whisper-Modell eine Worterkennungsfehlerrate von über 80 Prozent - das heißt, dass durchschnittlich vier von fünf Wörtern falsch erkannt wurden.
Für solche Sprachen ist also noch viel Arbeit nötig - die automatisierten Transkriptionen könnten aber als Ausgangspunkt für weitere Verbesserungen dienen. Das Team plant außerdem, weitere Daten für unterrepräsentierte Sprachen zu sammeln.
Die gesamte Datensammlung ist frei verfügbar auf GitHub zugänglich und soll Forschern und Entwicklern den Zugang zu umfangreichen Sprachdaten für europäische Sprachen erleichtern.
Das Projekt MOSEL stellt einen wichtigen Schritt zur Überwindung der Dominanz englischsprachiger Datensätze im Bereich der Sprach-KI dar. Durch die Bereitstellung einer umfangreichen und frei verfügbaren Datengrundlage für europäische Sprachen könnte MOSEL die Entwicklung von Sprachmodellen fördern, die die sprachliche Vielfalt Europas besser abbilden.
## Bibliographie
- https://arxiv.org/abs/2410.01036
- https://the-decoder.com/researchers-collect-950000-hours-of-open-source-speech-data-for-eu-languages/
- https://arxiv.org/html/2410.01036
- https://powerdrill.ai/discover/discover-MOSEL-950000-Hours-cm1tsb8ggrobw013wbliyv7vo
- https://www.marktechpost.com/2024/10/07/mosel-collection-of-open-source-speech-data-for-speech-foundation-model-training-on-eu-languages/
- https://huggingface.co/papers/2410.01036
- https://bytez.com/docs/arxiv/2410.01036/paper
- https://mt.fbk.eu/modernmt-2/
- https://www.threads.net/@undercodenews/post/DAwrBPZNhpe
- https://speechtek.fbk.eu/author/speechtek_admin/