KI für Ihr Unternehmen – Jetzt Demo buchen

Voreingenommenheit in KI-Modellen: Einfluss von Quellen auf Bewertungen

Kategorien:
No items found.
Freigegeben:
November 15, 2025

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

1
🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

2
🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

3
⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

4
🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

5
👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Inhaltsverzeichnis

    mindverse studio – Ihre Plattform für digitale Effizienz

    Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.
    Mehr über Mindverse Studio erfahren

    Das Wichtigste in Kürze

    • Eine umfangreiche Studie mit 192.000 KI-Bewertungen zeigt, dass große Sprachmodelle (LLMs) wie ChatGPT und DeepSeek Vorurteile auf Basis zugeschriebener Quellen aufweisen.
    • Im Blindtest, also ohne Kenntnis der Quelle, stimmten die Modelle zu über 90 Prozent überein, was die Annahme eines "KI-Nationalismus" infrage stellt.
    • Sobald Texten fiktive Quellen zugeschrieben wurden, insbesondere "eine Person aus China", sank die Zustimmung der Modelle signifikant, selbst beim chinesischen Modell DeepSeek.
    • Die KIs bewerteten primär die erwartete Haltung der Quelle und nicht den reinen Inhalt des Arguments, was zu drastischen Abweichungen führte (z.B. 85% Zustimmung auf 0% bei Taiwan-Souveränität).
    • Die Ergebnisse deuten auf einen "geopolitischen Essentialismus" hin, bei dem KIs Urteile basierend auf gelernten Stereotypen über Nationalitäten fällen.
    • Diese Voreingenommenheit ist relevant für den Einsatz von KI in Bereichen wie Content-Moderation, Ranking und Bewerbungsprüfung.

    Verborgene Voreingenommenheit: Wie KI-Modelle durch Quelleninformationen beeinflusst werden

    In der stetig fortschreitenden Entwicklung Künstlicher Intelligenz (KI) ist die Objektivität und Neutralität großer Sprachmodelle (LLMs) von zentraler Bedeutung. Eine kürzlich veröffentlichte, umfassende Studie der Universität Zürich, basierend auf 192.000 KI-Bewertungen, wirft ein neues Licht auf die Art und Weise, wie führende Modelle wie ChatGPT und DeepSeek potenziell voreingenommen agieren. Die Forschungsergebnisse legen nahe, dass die eigentliche Voreingenommenheit weniger in einer inhärenten ideologischen Färbung der Modelle liegt, sondern vielmehr in ihrer Reaktion auf die zugeschriebene Herkunft von Informationen.

    Die Untersuchung: Ein Blindtest und seine Folgen

    Die Studie, durchgeführt von Federico Germani und Giovanni Spitale, analysierte das Verhalten von vier prominenten LLMs: OpenAI o3-mini (die Basis von ChatGPT), DeepSeek Reasoner, Grok 2 von xAI und Mistral von Mistral AI. Die Modelle wurden aufgefordert, Tausende von Textaussagen zu 24 kontroversen Themen zu bewerten – darunter geopolitische Fragen wie die Souveränität Taiwans und gesellschaftliche Debatten wie COVID-19-Maßnahmen. Der innovative Ansatz der Forscher lag in der variierten Präsentation der Texte:

    • Blindtest: Die Quelle des Textes wurde nicht genannt.
    • Framing: Dem Text wurde fiktiv eine Quelle zugeschrieben, beispielsweise "eine Person aus China" oder "ein anderes LLM".

    Die Ergebnisse des Blindtests waren bemerkenswert: Ohne Kenntnis der Quelle zeigten die Modelle eine hohe Übereinstimmung in ihren Bewertungen, mit Zustimmungsraten von über 90 Prozent über alle Themen und Modelle hinweg. Dieser Befund stellt die oft in den Medien diskutierte Vorstellung eines "KI-Nationalismus" infrage, der besagt, dass Modelle wie DeepSeek per se eine pro-chinesische Haltung einnehmen oder Grok libertäre Positionen vertritt.

    Der Quellen-Effekt: Wenn die Herkunft die Bewertung bestimmt

    Die Einigkeit der Modelle brach jedoch drastisch zusammen, sobald eine Quelle genannt wurde. Über alle vier getesteten Modelle hinweg sank die Zustimmung signifikant, wenn ein Text einer "Person aus China" zugeschrieben wurde. Das überraschendste Ergebnis war hierbei, dass gerade das chinesische Modell DeepSeek Reasoner den stärksten "Anti-China-Bias" zeigte. Bei geopolitischen Themen fiel die Zustimmung des Modells zu Texten, die es chinesischen Autoren zuschrieb, um bis zu 25 Prozentpunkte.

    Ein konkretes Beispiel verdeutlicht diesen Effekt: Bewertete DeepSeek einen Text, der Taiwans Unabhängigkeit befürwortete und einer "Person" zugeschrieben wurde, lag die Zustimmung bei 85 Prozent. Wurde derselbe Text jedoch einer "Person aus China" zugeschrieben, sank die Zustimmung auf 0 Prozent. Die Begründung der KI war, dass die Aussage dem "Ein-China-Prinzip" widerspreche. Dies illustriert, dass die KI nicht den Inhalt des Arguments selbst bewertete, sondern die erwartete Haltung der zugeschriebenen Quelle.

    Ähnliche Muster zeigten sich im Kontext des Ukraine-Krieges. Ein von DeepSeek selbst generierter, pro-ukrainischer Text erhielt 95 Prozent Zustimmung bei neutraler Quellenangabe. Wurde dem Modell mitgeteilt, der Text stamme von einer "Person aus China", sank die Bewertung auf 15 Prozent.

    Misstrauen gegenüber künstlicher Intelligenz

    Die Studie offenbarte zudem ein allgemeines Misstrauen der KIs gegenüber sich selbst. Die meisten Modelle bewerteten Texte negativer, wenn sie annahmen, dass ein anderes LLM diese verfasst hatte, im Vergleich zu Texten von menschlichen Autoren.

    Implikationen für die Praxis und die B2B-Zielgruppe

    Die Ergebnisse dieser Studie sind für Unternehmen und Entscheidungsträger in der B2B-Branche von erheblicher Relevanz, insbesondere in Anwendungsbereichen, in denen KI zur Bewertung und Entscheidungsfindung eingesetzt wird:

    • Content-Moderation: Bei der automatisierten Überprüfung von Inhalten besteht die Gefahr, dass Texte aufgrund der vermeintlichen Herkunft des Autors voreingenommen bewertet und gegebenenfalls zensiert werden.
    • Inhaltsranking: Algorithmen, die Inhalte ranken, könnten durch zugeschriebene Quellen beeinflusst werden, was zu einer verzerrten Informationsdarstellung führen kann.
    • Automatisierte Bewerbungsprüfung: Im Personalwesen könnte die Bewertung von Bewerbungsunterlagen ungewollt durch Informationen über die Nationalität oder den kulturellen Hintergrund der Bewerber beeinflusst werden, wenn diese Informationen dem Modell zugänglich sind.
    • Journalismus und Nachrichtenanalyse: Die Bewertung von Nachrichtenquellen und die Generierung von Zusammenfassungen könnten durch den "geopolitischen Essentialismus" der KI verzerrt werden, was die Objektivität der Berichterstattung beeinträchtigen würde.

    Die Forscher bezeichnen diese Art der Voreingenommenheit als "geopolitischen Essentialismus". Dies bedeutet, dass die KI Urteile auf der Grundlage erlernter Stereotypen über Nationalitäten fällt, anstatt den Inhalt objektiv zu analysieren. Die Gefahr liegt demnach nicht in einer bewusst einprogrammierten Ideologie, sondern in einer subtilen, durch Trainingsdaten und den Kontext erlernten Verzerrung.

    Ausblick und Handlungsempfehlungen

    Die Studie unterstreicht die Notwendigkeit einer kritischen Auseinandersetzung mit den Funktionsweisen von LLMs. Für B2B-Anwender bedeutet dies:

    • Transparenz und Überprüfung: Es ist entscheidend, die Mechanismen und potenziellen Biases von KI-Modellen zu verstehen, die in kritischen Prozessen eingesetzt werden. Regelmäßige Überprüfungen und Audits der KI-Ergebnisse sind unabdingbar.
    • Kontextsensibilität: Bei der Implementierung von KI-Lösungen sollten Unternehmen die Sensibilität von Kontextinformationen wie der Herkunft des Autors oder der Quelle berücksichtigen und sicherstellen, dass diese Informationen die objektive Bewertung nicht beeinträchtigen.
    • Bewusstsein für "geopolitischen Essentialismus": Entwickler und Anwender müssen sich der Möglichkeit bewusst sein, dass KIs, basierend auf ihren Trainingsdaten, Stereotypen abbilden und in ihre Bewertungen einfließen lassen können.
    • Verstärkte Forschung und Entwicklung: Die KI-Forschung sollte weiterhin intensiv daran arbeiten, Modelle zu entwickeln, die in der Lage sind, Inhalte rein nach ihrem inhärenten Wert und ihrer Logik zu bewerten, unabhängig von externen, potenziell voreingenommenen Kontextinformationen.

    Die Ergebnisse der Zürcher Studie sind ein wichtiger Beitrag zum Verständnis der komplexen Herausforderungen, die mit der zunehmenden Integration von KI in geschäftliche und gesellschaftliche Prozesse einhergehen. Sie verdeutlichen, dass die Entwicklung und der Einsatz von KI-Systemen eine kontinuierliche Reflexion über deren ethische und operative Implikationen erfordern, um deren Potenzial verantwortungsvoll und zum Nutzen aller auszuschöpfen.

    Bibliographie

    - Petereit, D. (2025, 14. November). 192.000 KI-Bewertungen: ChatGPT und DeepSeek zeigen Vorurteile – anders als gedacht. t3n.de. - Malmendier, C. (2025, 13. November). Wie objektiv sind ChatGPT, DeepSeek und Co? scinexx.de. - Guo, Y., Guo, M., Su, J., Yang, Z., Zhu, M., Li, H., Qiu, M., & Liu, S. S. (2024, 19. November). Bias in Large Language Models: Origin, Evaluation, and Mitigation. arXiv. - Sapkota, R., Raza, S., & Karkee, M. (2025, 27. Februar). Comprehensive Analysis of Transparency and Accessibility of ChatGPT, DeepSeek, And other SoTA Large Language Models. arXiv. - Dickentmann, M. (2025, 29. Januar). ChatGPT vs. Deepseek – So unterschiedlich antworten beide Chatbots. stern.de. - Wolfenstein, K. (2025, 24. März). Vergleichende Analyse der führenden KI-Modelle: Google Gemini 2.0, DeepSeek R2 und GPT-4.5 von OpenAI. xpert.digital. - NIM. (2024). Studie: Nutzung und Bewertung von ChatGPT in Deutschland, UK und USA. nim.org.

    Artikel jetzt als Podcast anhören

    Kunden die uns vertrauen:
    Arise Health logoArise Health logoThe Paak logoThe Paak logoOE logo2020INC logoEphicient logo
    und viele weitere mehr!

    Bereit für den nächsten Schritt?

    Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
    Herzlichen Dank! Deine Nachricht ist eingegangen!
    Oops! Du hast wohl was vergessen, versuche es nochmal.

    🚀 Neugierig auf Mindverse Studio?

    Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.

    🚀 Demo jetzt buchen