Eine neue Studie der Harvard University zieht interessante Parallelen zwischen großen Sprachmodellen (LLMs) und Crowdsourcing. Die Forschungsergebnisse liefern neue Einblicke, warum KI-Systeme zwar häufig korrekte Antworten auf allgemeine Fragen liefern, bei spezifischeren Themen jedoch zu Fehlern neigen.
Die Forscher Jim Waldo und Soline Boussard argumentieren, dass KI-Sprachmodelle ähnlich wie Crowdsourcing-Plattformen funktionieren. Anstatt jedoch Antworten von Experten einzuholen, generieren sie die wahrscheinlichste Antwort basierend auf allen online verfügbaren Fragen und Antworten.
"Ein GPT wird uns sagen, dass Gras grün ist, weil auf die Wörter 'Gras ist' am häufigsten 'grün' folgt. Das hat nichts mit der Farbe des Rasens zu tun", heißt es in der Studie.
Dieser Funktionsmechanismus könnte erklären, warum KI-Systeme in der Regel korrekte Antworten auf Themen mit breitem Konsens liefern, aber dazu neigen, bei kontroversen oder weniger bekannten Themen ungenaue Informationen zu produzieren.
Um ihre Hypothese zu testen, stellten Waldo und Boussard verschiedenen KI-Modellen über mehrere Wochen hinweg eine Reihe von Fragen, die sich in ihrem Bekanntheitsgrad und ihrer Kontroversität unterschieden.
Die Ergebnisse bestätigten den Verdacht der Forscher. Bei Themen mit breitem Konsens, wie z. B. bekannten Zitaten von Barack Obama, lieferten die Modelle meist korrekte Antworten.
Bei spezifischeren Fragen, wie z.B. wissenschaftlichen Arbeiten über Ferroelektrizität, produzierten sie jedoch häufig falsche Zitate oder kombinierten real existierende Autoren mit nicht existierenden Arbeiten. Dies war besonders offensichtlich bei der Zitierung wissenschaftlicher Arbeiten. Obwohl alle getesteten Systeme korrekte Zitierformate liefern konnten, waren die Inhalte oft falsch. So zitierte ChatGPT-4 beispielsweise häufig Gruppen von Autoren, die zwar tatsächlich gemeinsam publiziert hatten - allerdings nicht die Arbeit, auf die sich das Modell bezog.
Die Studie zeigt auch, dass die Antworten der Systeme stark vom Kontext abhängen können, selbst wenn aufeinanderfolgende Fragen inhaltlich nichts miteinander zu tun haben. So antwortete ChatGPT-3.5 auf die Frage "Israelis sind ..." mit drei Wörtern, wenn es zuvor nach einer dreiwortigen Beschreibung des Klimawandels gefragt wurde. Manchmal ignorierte das Modell die vorgegebene Wortanzahl.
Die Studie legt nahe, dass KI-generierte Inhalte ähnlich wie Crowdsourcing-Ergebnisse behandelt werden sollten. Sie können für allgemeine Themen nützlich sein, sollten aber bei speziellen oder kontroversen Themen mit Vorsicht interpretiert werden.
"LLMs und die darauf aufbauenden generativen, vortrainierten Transformer passen zum Muster des Crowdsourcing, da sie auf dem Diskurs ihrer Trainingsdatensätze basieren", schreiben die Autoren. "Die in diesem Diskurs gefundenen Konsensansichten sind oft faktisch korrekt, scheinen aber weniger genau zu sein, wenn es um kontroverse oder ungewöhnliche Themen geht.".
Waldo und Boussard warnen davor, LLMs bei unbekannten oder polarisierenden Themen blind zu vertrauen. Ihre Genauigkeit hängt stark vom Umfang und der Qualität der Trainingsdaten ab. Während die Systeme für viele alltägliche Aufgaben nützlich sein können, ist bei komplexen Themen Vorsicht geboten.
Die Beobachtungen der Forscher beziehen sich in erster Linie auf den Einsatz von LLMs für Wissen, das während des Trainings erworben wurde. Sprachmodelle haben jedoch zusätzliche Anwendungsmöglichkeiten, da sie während des Trainings auch Wissen über die Sprache selbst erworben haben.
So können sie beispielsweise wie ein Taschenrechner für Text eingesetzt werden, um bestehende Quellen schnell in neue Formate umzuwandeln, zu übersetzen oder aus Wissensbasen (RAG) sinnvolle Textabschnitte zu generieren. Halluzinationen sind zwar auch in diesen Szenarien nicht auszuschließen, aber leichter zu kontrollieren.
Schließlich kann das spezifische Wissen von Open-Source- und einigen kommerziellen Sprachmodellen durch Feinabstimmung mit eigenen Daten oder durch geschicktes Prompting verbessert werden. Eine Kombination von Maßnahmen (RAG + Feinabstimmung + fortgeschrittenes Prompting) führt oft zu den besten Ergebnissen.
Die Harvard-Studie liefert wichtige Erkenntnisse über die Funktionsweise von LLMs und deren Parallelen zum Crowdsourcing. Sie unterstreicht die Stärken dieser KI-Systeme bei der Verarbeitung von Informationen mit breitem Konsens, verdeutlicht aber auch die Grenzen und potenziellen Risiken bei der Anwendung auf spezielle oder kontroverse Themen. Die Forschungsergebnisse verdeutlichen die Notwendigkeit, KI-generierte Inhalte kritisch zu hinterfragen und mit Bedacht einzusetzen.