OpenAIs fortschrittlicher Sprachmodus ist nun für alle Plus-Nutzer in der EU, der Schweiz, Island, Norwegen und Liechtenstein verfügbar. Zuvor war der Zugriff für Nutzer aus diesen Ländern nur per VPN möglich. OpenAI hatte den erweiterten Sprachmodus für ChatGPT Plus- und Team-Nutzer bereits Ende September eingeführt. Die Funktion ermöglicht Sprachinteraktionen mit dem KI-Assistenten und verspricht verbesserte Akzente und schnellere Gesprächsgeschwindigkeiten. Zu den neuen Funktionen gehören benutzerdefinierte Anweisungen, ein verbessertes Gedächtnis und fünf neue Stimmen. Viele der Funktionen, die bei der Einführung von GPT-4o, dem Modell hinter dem erweiterten Sprachmodus, gezeigt wurden, fehlen jedoch noch.
Während der GPT-4o-Präsentation demonstrierte OpenAI deutlich umfangreichere Funktionen, insbesondere in der visuellen Verarbeitung. Dazu gehörten die Echtzeitanalyse von Videos oder Grafiken und die Emotionserkennung in Gesichtern. Der aktuell verfügbare erweiterte Sprachmodus kann weder Bilder noch Videos verarbeiten. Auch das Singen oder Summen, das in den Präsentationen ebenfalls demonstriert wurde, ist in der aktuellen Version nicht verfügbar. Derzeit kann der erweiterte Sprachmodus nicht im Internet suchen. Es ist auch nicht möglich, von einer Textkonversation in den erweiterten Sprachmodus zu wechseln oder eine Standardkonversation in den erweiterten Modus zu übertragen. OpenAI hatte bei der GPT-4o-Einführung auch eine Reihe multimodaler Fähigkeiten des neuen Modells vorgestellt, darunter die Bilderzeugung. Auch diese Funktionen hat das Unternehmen noch nicht freigegeben.
Ein möglicher Grund für die verspätete Einführung des erweiterten Sprachmodus in der EU könnte die Fähigkeit des Systems zur Emotionserkennung sein - eine Funktion, die nach dem EU-KI-Gesetz verboten wäre.
Seit der Einführung des erweiterten Sprachmodus im Mai haben auch andere Unternehmen ähnliche Produkte vorgestellt oder veröffentlicht, insbesondere Google mit Gemini Live. Mit Moshi gibt es auch eine erste - wenn auch schwächere - Open-Source-Alternative.
Der erweiterte Sprachmodus bietet eine Reihe praktischer Anwendungsmöglichkeiten, die über die reine Texteingabe hinausgehen.
Der erweiterte Sprachmodus verleiht ChatGPT einen persönlicheren Charakter. Die Interaktion mit dem KI-Assistenten kann, obwohl sie menschliche Interaktion nicht ersetzt, ein Gefühl der Begleitung vermitteln.
Der erweiterte Sprachmodus von ChatGPT ist ein vielversprechendes Werkzeug mit zahlreichen praktischen Anwendungsmöglichkeiten. Obwohl einige der angekündigten Funktionen noch fehlen und die Verfügbarkeit regional eingeschränkt ist, stellt der Modus eine bedeutende Weiterentwicklung in der Interaktion mit KI-Assistenten dar. Es bleibt abzuwarten, wie sich die Technologie weiterentwickelt und welche neuen Möglichkeiten sich in Zukunft ergeben werden.