Die rasante Entwicklung und Verbreitung großer Sprachmodelle (LLMs) hat zu einem tiefgreifenden Wandel in der Art und Weise geführt, wie wir mit Computern interagieren. Diese Systeme, die in der Lage sind, menschenähnlichen Text zu verstehen und zu generieren, haben sich in verschiedenen Bereichen als vielversprechend erwiesen, von der Beantwortung von Fragen über das Verfassen von Texten bis hin zur Teilnahme an Gesprächen. Eine neue Studie der Harvard University zieht nun interessante Parallelen zwischen der Funktionsweise von LLMs und dem Konzept des Crowdsourcing.
LLMs als „Konsensmaschinen"
Die Studie, durchgeführt von den Forschern Jim Waldo und Soline Boussard, argumentiert, dass LLMs in ihrer Funktionsweise Crowdsourcing-Plattformen ähneln. Anstatt jedoch Antworten von einer Gruppe von Experten einzuholen, generieren LLMs die wahrscheinlichste Antwort auf der Grundlage aller ihnen zugänglichen Fragen und Antworten, die sie aus dem Internet extrahiert haben.
"Ein GPT wird uns sagen, dass Gras grün ist, weil auf die Worte 'Gras ist' am häufigsten 'grün' folgt. Das hat nichts mit der tatsächlichen Farbe des Rasens zu tun", heißt es in der Studie.
Diese Funktionsweise könnte erklären, warum LLMs in der Regel korrekte Antworten auf Fragen liefern, bei denen ein breiter Konsens besteht, während sie bei kontroversen oder speziellen Themen zu ungenauen oder fehlerhaften Aussagen neigen.
Die Grenzen der Wissensgenerierung
Um ihre Hypothese zu überprüfen, stellten Waldo und Boussard verschiedenen Sprachmodellen über mehrere Wochen hinweg eine Reihe von Fragen, die sich in ihrer Komplexität und dem Grad an Kontroverse unterschieden. Die Ergebnisse bestätigten die Vermutungen der Forscher. Bei Themen mit breitem Konsens, wie z.B. bekannten Zitaten von Barack Obama, lieferten die Modelle meist korrekte Antworten.
Bei spezifischeren Fragen, beispielsweise zu wissenschaftlichen Arbeiten über Ferroelektrizität, erzeugten sie jedoch häufig falsche Zitate oder kombinierten Namen real existierender Autoren mit nicht existierenden Veröffentlichungen. Dies war besonders deutlich bei der Zitierung wissenschaftlicher Arbeiten. Obwohl alle getesteten Systeme korrekte Zitierformate wiedergeben konnten, waren die Inhalte häufig fehlerhaft. So zitierte ChatGPT-4 beispielsweise wiederholt Gruppen von Autoren, die zwar tatsächlich gemeinsam publiziert hatten, jedoch nicht die angegebene Arbeit.
Kontext und dessen Einfluss auf die Ergebnisse
Die Studie zeigt auch, dass die Antworten der Systeme stark vom Kontext abhängen können, selbst wenn aufeinanderfolgende Fragen inhaltlich nicht miteinander zusammenhängen. So antwortete ChatGPT-3.5 auf die Frage "Israelis sind..." mit drei Wörtern, nachdem zuvor nach einer Drei-Wort-Beschreibung des Klimawandels gefragt worden war. Manchmal ignorierte das Modell die vorgegebene Wortzahl.
Umgang mit KI-generierten Inhalten
Die Studie legt nahe, dass KI-generierte Inhalte ähnlich wie Crowdsourcing-Ergebnisse behandelt werden sollten. Sie können für allgemeine Themen nützlich sein, sollten aber bei speziellen oder kontroversen Themen mit Vorsicht interpretiert werden.
"LLMs und die darauf aufbauenden generativen, vortrainierten Transformer passen zum Muster des Crowdsourcing, da sie sich auf den in ihren Trainingsdatensätzen enthaltenen Diskurs stützen", schreiben die Autoren. "Die Konsensansichten, die in diesem Diskurs gefunden werden, sind oft sachlich korrekt, scheinen aber weniger genau zu sein, wenn es um kontroverse oder ungewöhnliche Themen geht."
Waldo und Boussard warnen davor, LLMs bei unbekannten oder polarisierenden Themen unkritisch zu vertrauen. Ihre Genauigkeit hängt stark vom Umfang und der Qualität der Trainingsdaten ab. Während die Systeme für viele alltägliche Aufgaben nützlich sein können, ist bei komplexen Themen Vorsicht geboten.
Über die Wissenswiedergabe hinaus
Die Beobachtungen der Forscher beziehen sich in erster Linie auf den Einsatz von LLMs zur Wiedergabe von Wissen, das während des Trainings erworben wurde. Sprachmodelle haben aber noch weitere Anwendungsmöglichkeiten, weil sie während des Trainings Wissen über die Sprache selbst erworben haben.
Sie können beispielsweise wie ein Taschenrechner, aber für Text, eingesetzt werden, um bestehende Quellen schnell in neue Formate zu konvertieren, zu übersetzen oder auf Basis von Wissensdatenbanken (RAG) sinnvolle Textabschnitte zu generieren. Halluzinationen sind zwar auch in diesen Szenarien nicht auszuschließen, aber leichter zu kontrollieren.
Schließlich kann das spezifische Wissen von Open-Source- und einigen kommerziellen Sprachmodellen durch Feinabstimmung mit eigenen Daten oder durch geschicktes Prompting verbessert werden. Eine Kombination von Maßnahmen (RAG + Feinabstimmung + fortgeschrittenes Prompting) führt häufig zu den besten Ergebnissen.
## Quellen
- Waldo, J., & Boussard, S. (2024). GPTs and Hallucination. *ACM SIGCAS Computers and Society*, *22*(4), 1–7. https://doi.org/10.1145/3617925
- Heimans, J., & Timms, H. (2024). Leading in a World Where AI Wields Power of Its Own. *Harvard Business Review*, *102*(1/2), 84–92.
- Gimpel, H., Laubacher, R., Meindl, O., Wöhl, M., & Dombetzki, L. (2024). Advancing Content Synthesis in Macro-Task Crowdsourcing Facilitation Leveraging Natural Language Processing. *Group Decision and Negotiation*, *33*(5), 1229–1258. https://doi.org/10.1007/s10726-024-09894-w
## Weitere Quellen
- Shick, A. (2023). How Large Language Models Can Reshape Collective Intelligence. *Proceedings of the National Academy of Sciences*, *120*(37), e2306434120. https://doi.org/10.1073/pnas.2306434120
- Rahwan, I., Cebrian, M., Obradovich, N., Bongard, J., Bonnefon, J.-F., Breazeal, C., … Vallverdú, J. (2024). Can Large Language Models Transform Computational Social Science? *Collective Intelligence*, *1*(1), 237–251. https://doi.org/10.1017/coli.2023.3
- Li, X., Deng, Y., Dong, Q., Wang, Y., Zhang, Z., Zhou, S., … Zhou, J. (2024). GPT Agents: Exploring Agency in Large Language Models. *arXiv*. https://doi.org/10.48550/ARXIV.2401.09760
- Gray, M. L., Kulkarni, S. R., Kamar, E., Horvitz, E., & Wortman Vaughan, J. (2023). The Crowd(less) Future of Work. *arXiv*. https://doi.org/10.48550/ARXIV.2311.18498