Im digitalen Zeitalter, in dem wir leben, gewinnen Sprach- und Audioverarbeitungstechnologien zunehmend an Bedeutung. Eine Schlüsselkomponente in diesem Bereich ist die Sprecherdiarisierung, die darauf abzielt, zu identifizieren, wann und von wem gesprochen wird in einer Audioaufnahme. Dies ist insbesondere für die Transkription von Meetings, Telefonaten und Podcasts von entscheidender Bedeutung. Google hat kürzlich einen neuen Ansatz zur Verbesserung der Sprecherdiarisierung vorgestellt, der auf großen Sprachmodellen (LLMs) basiert, die als DiarizationLM bezeichnet werden.
DiarizationLM ist ein Framework, das große Sprachmodelle nutzt, um die Ausgaben eines Sprecherdiarisierungssystems nachträglich zu verarbeiten. Dadurch können verschiedenste Ziele erreicht werden, wie zum Beispiel die Verbesserung der Lesbarkeit des diarisierten Transkripts oder die Verringerung der Fehlerquote bei der Wortdiarisierung (WDER).
Das Framework funktioniert, indem die Ausgaben des automatischen Spracherkennungssystems (ASR) und des Sprecherdiarisierungssystems in ein kompaktes Textformat umgewandelt werden. Dieses Format wird dann in eine Eingabeaufforderung (Prompt) für ein großes, optional feinabgestimmtes Sprachmodell eingebettet. Die Ausgaben dieses Sprachmodells können dann als verfeinerte Diarisierungsergebnisse mit der gewünschten Verbesserung verwendet werden.
Als Nachbearbeitungsschritt ist DiarizationLM besonders attraktiv, da es auf jedes handelsübliche ASR- und Sprecherdiarisierungssystem angewendet werden kann, ohne dass bestehende Komponenten neu trainiert werden müssen. Dies bedeutet, dass es relativ einfach in bestehende Systeme integriert werden kann.
Experimente haben gezeigt, dass ein feinabgestimmtes PaLM 2-S Modell den WDER auf dem Fisher Telefonkonversationsdatensatz um relative 25,9% und auf dem Callhome English-Datensatz um relative 31% reduzieren konnte.
Diese Ergebnisse sind vielversprechend und weisen auf das Potenzial hin, das große Sprachmodelle für die Verbesserung der Sprecherdiarisierung und andere Aufgaben der Sprachverarbeitung haben. Die Fähigkeit große Sprachmodelle, Kontextinformationen zu erfassen, kann genutzt werden, um die akustischen Modelle zu ergänzen und so die Genauigkeit der Sprecherzuordnung zu verbessern.
Ein weiterer Ansatz, der die Fähigkeiten großer Sprachmodelle nutzt, ist der kontextuelle Beam-Suchansatz. Dabei wird ein akustikbasiertes Sprecherdiarisierungssystem um lexikalische Informationen aus einem LLM erweitert. Durch die Kombination von akustischen und lexikalischen Hinweisen im Inferenzstadium kann die Gesamtgenauigkeit der Sprecherzuordnung verbessert werden.
Ein Beispiel für die Verwendung von LLMs zur Fehlerkorrektur bei Sprecherdiarisierungen ist die Arbeit von Forschern, die ein zweistufiges Lexikal Speaker Error Correction System vorstellten. Durch die Nutzung der Leistungsfähigkeit moderner Sprachmodelle konnten sie die Wortebenendiagnosefehlerrate (WDER) auf verschiedenen Telefoniedatensätzen um 15-30% reduzieren.
Die Integration von LLMs in die Sprecherdiarisierung ist nur ein Beispiel dafür, wie die Sprachtechnologie durch die Fortschritte im Machine Learning und in der künstlichen Intelligenz weiterentwickelt wird. Diese Technologien ermöglichen es uns, immer komplexere und nuanciertere Aspekte der menschlichen Kommunikation zu erfassen und zu verstehen.
Bei Mindverse sind wir stetig auf der Suche nach innovativen Lösungen, die die Einsatzmöglichkeiten von KI im Bereich der Inhaltskreation und -verarbeitung erweitern. Solche Entwicklungen wie DiarizationLM sind ein spannender Schritt nach vorn, um die Grenzen dessen, was mit künstlicher Intelligenz möglich ist, weiter zu verschieben und neue, maßgeschneiderte Lösungen für unsere Kunden zu entwickeln.