Das Center for AI Safety (CAIS) hat ein KI-System entwickelt, das angeblich bessere Vorhersagen als menschliche Experten trifft. Das System, bekannt als "FiveThirtyNine", basiert auf GPT-4o und bietet Wahrscheinlichkeiten für benutzerdefinierte Anfragen, wie zum Beispiel "Wird Trump die Präsidentschaftswahl 2024 gewinnen?" oder "Wird China bis 2030 in Taiwan einmarschieren?"
Das Entwicklerteam von CAIS verwendet eine Kombination aus Internet-Crawling und einem ausgeklügelten Prompt, der das Modell anweist, gefundene Quellen zu analysieren und die Wahrscheinlichkeit von Ja- und Nein-Antworten zu bewerten. FiveThirtyNine wurde entwickelt, um eine breite Palette von potentiellen Anwendungen zu unterstützen, darunter die Unterstützung von Entscheidungsträgern, die Verbesserung der Informationslandschaft durch zuverlässige Vorhersagen oder die Risikobewertung in Chatbots und persönlichen KI-Assistenten.
Um die Leistung von FiveThirtyNine zu testen, wurde es mit Fragen von der Metaculus-Vorhersageplattform bewertet. Die KI durfte nur auf Informationen zugreifen, die auch den menschlichen Vorhersagern zur Verfügung standen. Mit einem Datensatz von 177 Ereignissen erreichte die Metaculus-Gruppe eine Genauigkeit von 87,0 Prozent, während FiveThirtyNine die Experten mit 87,7 Prozent ± 1,4 übertraf.
Das System hat jedoch einige Schwächen. Es ist nicht speziell für bestimmte Anwendungsfälle optimiert und wurde nicht auf seine Fähigkeit getestet, Finanzmärkte vorherzusagen. FiveThirtyNine kann keine Vorhersage ablehnen, wenn es eine ungültige Anfrage erhält. Zudem ist das Modell auf Informationen aus dem Trainingsmaterial beschränkt. Wenn etwas nicht in der Vorverteilung enthalten ist und keine Artikel darüber geschrieben wurden, weiß das Modell nichts darüber – selbst wenn ein Mensch eine Vorhersage treffen könnte.
Für Vorhersagen über sehr kurzfristige oder aktuelle Ereignisse schneidet FiveThirtyNine ebenfalls schlecht ab, da sein Training vor einiger Zeit abgeschlossen wurde und es daher beispielsweise standardmäßig annimmt, dass Joe Biden noch im Rennen ist.
Die Entwickler sehen eine breite Palette von möglichen Anwendungen für prädiktive KIs wie FiveThirtyNine. Dazu gehören:
- Unterstützung von Entscheidungsträgern - Verbesserung der Informationslandschaft durch zuverlässige Vorhersagen - Risikobewertung in Chatbots und persönlichen KI-AssistentenDas Center for AI Safety hat mit FiveThirtyNine ein KI-System entwickelt, das darauf abzielt, menschliche Experten in der Vorhersage von Ereignissen zu übertreffen. In einem Test auf der Metaculus-Vorhersageplattform erreichte FiveThirtyNine eine Genauigkeit von 87,7 Prozent und übertraf damit eine Gruppe menschlicher Experten, die 87,0 Prozent erzielte. Das System weist jedoch auch Schwächen auf, wie etwa die mangelnde Spezialisierung auf bestimmte Anwendungsfälle, die Beschränkung auf Informationen aus dem Trainingsmaterial und die schlechte Leistung bei sehr kurzfristigen oder aktuellen Ereignissen.