Moderne Dialogsysteme haben eine hohe Benutzerfreundlichkeit demonstriert. Sie bleiben jedoch hinter der Abbildung realer Gesprächsszenarien zurück. Aktuelle Dialogsysteme weisen eine Unfähigkeit auf, die dynamischen, kontinuierlichen, langfristigen Interaktionen mit mehreren Partnern zu replizieren. Dieser Mangel ergibt sich daraus, dass es nur begrenzte Bemühungen gab, beide Aspekte realer Dialoge zu berücksichtigen: tiefgreifende Interaktionen über den langfristigen Dialog hinweg und weit gefächerte Konversationsnetzwerke mit mehreren Teilnehmern. Im Rahmen der Bemühungen, diese Aspekte zu kombinieren, führen wir Mixed-Session Conversation ein, ein Dialogsystem, das für die Gestaltung von Gesprächen mit verschiedenen Partnern in einem Multi-Session-Dialog-Setup konzipiert ist.
Wir schlagen einen neuen Datensatz namens MiSC vor, um dieses System zu implementieren. Die Dialogepisoden von MiSC bestehen aus 6 aufeinanderfolgenden Sitzungen, an denen vier Sprecher (ein Hauptsprecher und drei Partner) teilnehmen. Außerdem schlagen wir ein neues Dialogmodell mit einem neuartigen Speicherverwaltungsmechanismus vor, den Egocentric Memory Enhanced Mixed-Session Conversation Agent (EMMA). EMMA sammelt und speichert Erinnerungen aus der Sicht des Hauptsprechers während der Gespräche mit Partnern und ermöglicht so eine nahtlose Kontinuität in nachfolgenden Interaktionen.
Umfangreiche menschliche Auswertungen bestätigen, dass die Dialoge in MiSC einen nahtlosen Gesprächsfluss aufweisen, selbst wenn die Gesprächspartner in jeder Sitzung wechseln. EMMA, das mit MiSC trainiert wurde, wird auch dahingehend bewertet, ob es während des gesamten Gesprächs eine hohe Erinnerungsfähigkeit ohne Widersprüche beibehält.
Dialogsysteme haben sich in zwei Dimensionen weiterentwickelt:
in die Tiefe, um langfristige Interaktionen zu unterstützen,
und in die Breite, um eine größere Anzahl von
Gesprächspartnern unterzubringen.
Multi-Session-Konversationen wurden als Beispiel für solche
langfristigen Dialogsysteme vorgeschlagen, die den
Dialogkontext über aufeinanderfolgende Sitzungen hinweg
beibehalten. Die Erweiterung des Netzwerks von
Gesprächspartnern in der anderen Dimension umfasst
Multi-Party-Konversationen. Sie erweitern den Umfang der
Interaktionen, indem sie die Anzahl der
Gesprächspartner erhöhen, die an einer Dialogsitzung
beteiligt sind.
In der realen Welt finden Gespräche jedoch in komplexen Kontexten statt, die sowohl langwierig als auch tief geschichtet sind und eine Vielzahl von Personen einbeziehen. Daher würde die Fokussierung auf eine der beiden Dimensionen diese Dynamik nicht vollständig erfassen. Angesichts dieser Bedeutung gab es überraschenderweise nur wenige Bemühungen, Dialogsysteme in beide Richtungen weiterzuentwickeln.
Um die Grenzen dieser Dialogsysteme zu erweitern, führen wir Mixed-Session Conversation ein. Im Gegensatz zu Multi-Session-Konversationen, bei denen ein Sprecher über alle Sitzungen hinweg mit einem festen Partner spricht, trifft der Hauptsprecher in Mixed-Session Conversation in einer gemischten Reihenfolge von Sitzungen auf mehrere Partner. Dieser Ansatz wird daher als Mixed-Session bezeichnet.
Konkret besteht Mixed-Session Conversation aus mehreren Dialogsitzungen, in denen mehrere Sprecher, darunter ein Hauptsprecher, im Laufe der Zeit dynamisch interagieren. Der Hauptsprecher führt mit verschiedenen Partnern, einem Partner pro Sitzung, Gespräche, die sich auf ein bestimmtes Ereignis konzentrieren. Diese Umgebung ermöglicht es einem Dialogsystem, mit jedem seiner Partner einen tiefen, vielschichtigen Kontext aufzubauen, wodurch die Dynamik erweitert und komplexer wird.
Um Mixed-Session Conversation zu implementieren, entwickeln wir einen Dialogdatensatz namens MiSC. MiSC umfasst 8.5K Episoden, wobei jede Episode aus 6 Sitzungen besteht (insgesamt 51K Sitzungen). An jeder Episode nehmen vier Sprecher teil, wobei ein Hauptsprecher an allen Sitzungen beteiligt ist und die anderen drei Sprecher jeweils als Gesprächspartner fungieren. Um dem Hauptsprecher die Möglichkeit zu geben, alle Kontexte über Sitzungen und Partner hinweg zu speichern, führen wir ein neues Speicherverwaltungssystem namens Egocentric Memory ein.
Egocentric Memory speichert das Gedächtnis über jeden Partner aus der Sicht des Hauptsprechers und ermöglicht so einen präzisen Rückruf, um die Ereignisse mit jedem Partner ohne Widersprüche abzugleichen.
Wir realisieren Mixed-Session Conversation durch ein neuartiges Dialogmodell namens Egocentric Memory Enhanced Mixed-session Conversation Agent (EMMA). EMMA wurde auf MiSC trainiert und gewährleistet eine nahtlose Kontinuität bei der Interaktion zwischen den Sprechern, indem es Egocentric Memory nutzt.
Im Laufe der Sitzung wird das Gedächtnis jedes Sprechers neu hinzugefügt oder aktualisiert; dadurch kann das gesamte Gedächtnis erhalten bleiben, ohne dass Informationen über die vorherigen Sitzungen und Partner verloren gehen.
Durch umfangreiche menschliche Auswertungen wird die Qualität von MiSC und der von EMMA generierten Gespräche verifiziert, um eine hohe Qualität zu gewährleisten. Genauer gesagt weist MiSC eine hohe Konsistenz und Kohärenz über die gesamte Episode hinweg auf und behält ein genaues Gedächtnis jedes Partners aus der Sicht des Hauptsprechers, selbst wenn die Gesprächspartner mit jeder Sitzung wechseln. Die Gespräche von EMMA zeichnen sich durch hohe Menschlichkeit, Engagement und Erinnerungsfähigkeit aus.
Die vorgestellte Forschungsarbeit befasst sich mit der Verbesserung von Dialogsystemen, um realistischere Gesprächsszenarien abzubilden. Der Fokus liegt dabei auf der Bewältigung der Herausforderungen, die sich aus langfristigen Interaktionen mit mehreren Partnern ergeben. Um dies zu erreichen, werden folgende Schlüsselkomponenten eingeführt:
Die Kombination dieser Komponenten ermöglicht es dem System, sowohl die Kontinuität in Gesprächen über mehrere Sitzungen hinweg als auch die Komplexität der Interaktion mit verschiedenen Teilnehmern zu bewältigen. Umfangreiche menschliche Auswertungen bestätigen die hohe Qualität der Dialoge, die mit dem MiSC-Datensatz und dem EMMA-Modell generiert wurden. Die Ergebnisse zeigen, dass das System in der Lage ist, einen natürlichen Gesprächsfluss aufrechtzuerhalten und gleichzeitig eine hohe Erinnerungsfähigkeit und ein hohes Engagement zu gewährleisten.