OpenAI hat auf seiner DevDay-Konferenz mehrere neue Funktionen für App-Entwickler angekündigt. Das Unternehmen bietet nun Tools an, um KI-generierte Stimmen zu integrieren und GPT-4o mit Bildern zu verfeinern.
Die neue "Realtime API" ermöglicht es Entwicklern, sechs KI-Stimmen in ihre Apps zu integrieren. Diese Stimmen unterscheiden sich von denen, die in ChatGPT verwendet werden. Um rechtliche Probleme zu vermeiden, können Entwickler keine Stimmen von Drittanbietern verwenden.
OpenAI präsentierte eine Reiseplanungs-App, die die Realtime API verwendet. Benutzer konnten mit einem KI-Assistenten über eine Londonreise sprechen und erhielten schnelle Antworten. Die API kann auch Restaurantvorschläge zu Karten hinzufügen.
Die Technologie funktioniert auch für Telefonanrufe, z. B. für Bestellungen. OpenAI gibt nicht automatisch bekannt, dass es sich um eine KI-Stimme handelt, sondern überlässt dies vorerst den Entwicklern.
Zu den weiteren Updates gehören:
OpenAI gibt an, dass das Prompt-Caching automatisch funktioniert und potenziell bis zu 50 % der Token einsparen kann. Mit "gespeicherten Vervollständigungen" können Entwickler Modellinteraktionen auf der Plattform von OpenAI speichern, um sie später zu verfeinern. Das Unternehmen veröffentlichte auch neue Bewertungstools.
Mit der Einführung der neuen Funktionen, insbesondere der Integration realistischer KI-Stimmen in Anwendungen und der Verfeinerung von GPT-4o mit Bildern, verfolgt OpenAI das Ziel, die Interaktion mit KI-Systemen natürlicher zu gestalten.
Die Realtime API bietet sechs KI-Stimmen zur Auswahl und kann in Anwendungen wie Reiseplanungs-Apps oder Telefonanrufe integriert werden. OpenAI überlässt es den Entwicklern, die Verwendung von KI-Stimmen offenzulegen.
Weitere neue Funktionen sind das sofortige Caching zur Kostensenkung, die Modelldestillation zur Optimierung kleinerer Modelle und neue Bewertungstools. Außerdem verdoppelt OpenAI die Ratenbegrenzung für das o1-Modell.