Google hat eine neue Funktion für seinen KI-gestützten Sprachassistenten Gemini vorgestellt: Gemini Live. Diese Funktion ermöglicht es Nutzern, in Echtzeit mit Gemini zu kommunizieren, und stellt damit eine direkte Antwort auf den kürzlich von OpenAI vorgestellten „Advanced Voice Mode“ für ChatGPT dar.
Gemini Live ist zunächst für Android-Nutzer verfügbar, die ein Abonnement des Dienstes Gemini Advanced besitzen. Die Nutzung ist derzeit auf Englisch beschränkt, die Unterstützung weiterer Sprachen sowie die Verfügbarkeit für iOS sollen in den kommenden Wochen folgen.
Mit Gemini Live können Nutzer über ihre Smartphones umfassende Sprachkonversationen mit dem Google-Sprachmodell führen. Die optimierte Spracherkennung ermöglicht einen natürlicheren Gesprächsfluss. Nutzer können Gemini unterbrechen, um beispielsweise Rückfragen zu stellen, und der Chatbot passt sich in Echtzeit an die Sprachmuster des Nutzers an.
Google beschreibt die Funktion in einem Blogbeitrag wie folgt: „Mit Gemini Live [über die Gemini-App] können Sie mit Gemini sprechen und aus [10 neuen] natürlich klingenden Stimmen wählen, mit denen es antworten kann. Sie können sogar in Ihrem eigenen Tempo sprechen oder die Antwort mit klärenden Fragen unterbrechen, genau wie in einem normalen Gespräch."
Ein Vorteil, den Gemini Live gegenüber dem „Advanced Voice Mode“ von ChatGPT haben könnte, ist ein besseres Gedächtnis. Die Architektur des generativen KI-Modells, das Live, Gemini 1.5 Pro und Gemini 1.5 Flash zugrunde liegt, verfügt über ein überdurchschnittlich großes „Kontextfenster“. Dies bedeutet, dass die Modelle eine große Datenmenge - theoretisch stundenlange Gespräche - verarbeiten und einbeziehen können, bevor sie eine Antwort generieren.
„Live verwendet unsere fortschrittlichen Gemini-Modelle, die wir für eine bessere Gesprächsführung angepasst haben", erklärte ein Google-Sprecher gegenüber TechCrunch. „Das große Kontextfenster des Modells wird genutzt, wenn Nutzer lange Gespräche mit Live führen."
Obwohl die Echtzeit-Sprachverarbeitung von Gemini Live bereits jetzt verfügbar ist, wird eine weitere, auf der Google I/O angekündigte Funktion erst später im Jahr eingeführt: die multimodale Eingabe. Im Mai veröffentlichte Google Videos, die zeigten, wie Gemini Live die Umgebung des Nutzers über Fotos und Videos der Smartphone-Kamera wahrnimmt und darauf reagiert. So konnte der Chatbot beispielsweise ein Teil an einem kaputten Fahrrad benennen oder den Code auf einem Computerbildschirm erklären.
Neben Gemini Live hat Google weitere Neuerungen für seinen Chatbot angekündigt. So wird es Android-Nutzern bald möglich sein, Gemini als Overlay über jeder beliebigen App aufzurufen. Durch Gedrückthalten der Ein-/Aus-Taste oder den Sprachbefehl „Hey Google“ können Nutzer Fragen zu den Inhalten auf dem Bildschirm stellen, beispielsweise zu einem YouTube-Video. Gemini wird dann in der Lage sein, Bilder direkt aus dem Overlay heraus zu generieren - allerdings (noch) keine Bilder von Personen. Diese Bilder können anschließend in andere Apps wie Gmail oder Google Messages gezogen werden.
Darüber hinaus erhält Gemini neue Integrationen mit anderen Google-Diensten (oder „Erweiterungen", wie Google sie nennt), sowohl auf Mobilgeräten als auch im Web. In den kommenden Wochen wird Gemini in der Lage sein, Aktionen mit Google Kalender, Keep, Tasks, YouTube Music und den sogenannten „Utilities" durchzuführen. Letztere umfassen Apps, die Funktionen wie Timer, Wecker, Medienwiedergabe, Taschenlampe, Lautstärke, WLAN, Bluetooth usw. steuern.
In einem Blogbeitrag nennt Google einige Beispiele, wie Nutzer diese Integrationen nutzen könnten:
- Nutzer können Gemini bitten, „eine Playlist mit Songs zu erstellen, die mich an die späten 90er erinnern".
- Nutzer können ein Foto eines Konzertflyers aufnehmen und Gemini fragen, ob sie an diesem Tag Zeit haben - und sich sogar eine Erinnerung zum Kauf von Tickets einrichten lassen.
- Nutzer können Gemini bitten, ein Rezept aus Gmail herauszusuchen und die Zutaten zu ihrer Einkaufsliste in Keep hinzuzufügen.
Schließlich wird Gemini ab Ende dieser Woche auch auf Android-Tablets verfügbar sein.
## Bibliographie
- https://the-decoder.com/googles-answer-to-chatgpts-advanced-voice-mode-now-freely-available/
- https://techcrunch.com/2024/08/13/gemini-live-googles-answer-to-chatgpts-advanced-voice-mode-launches/
- https://www.reddit.com/r/OpenAI/comments/1erdir3/gemini_live_googles_answer_to_chatgpts_advanced/
- https://bgr.com/tech/chatgpt-free-advanced-voice-mode/
- https://help.openai.com/en/articles/8400625-voice-mode-faq
- https://www.cnbc.com/2024/09/24/how-to-use-chatgpt-advanced-voice-mode-from-openai.html
- https://timesofindia.indiatimes.com/technology/tech-news/google-rolling-out-geminis-answer-to-chatgpts-advanced-voice-mode/articleshow/112504547.cms
- https://innovation-village.com/gemini-live-googles-answer-to-chatgpts-advanced-voice-mode-is-now-available/
- https://uk.news.yahoo.com/chatgpt-advanced-voice-mode-how-to-use-165223131.html
- https://www.youtube.com/watch?v=c7tOIKAgQ2M