Erkenntnisse zur Evaluierung von Künstlicher Intelligenz und der Rolle menschlicher Meinungsvielfalt

Kategorien:

No items found.

Freigegeben:

April 5, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Eine Studie von Google Research und dem Rochester Institute of Technology zeigt, dass die gängige Praxis, nur drei bis fünf menschliche Gutachter pro Testbeispiel einzusetzen, für zuverlässige KI-Benchmarks unzureichend ist. Mindestens zehn Gutachter werden als notwendig erachtet.
Etwa 1.000 Annotationen können zuverlässige Ergebnisse liefern, jedoch nur, wenn das Budget korrekt zwischen der Anzahl der Testbeispiele und der Anzahl der Gutachter aufgeteilt wird. Ein unausgewogenes Verhältnis führt selbst bei grösseren Budgets zu unzuverlässigen Ergebnissen.
Die optimale Verteilung der Gutachter hängt davon ab, was gemessen werden soll: Mehrheitsentscheidungen erfordern viele Beispiele mit weniger Gutachtern, während die Erfassung der gesamten Meinungsvielfalt weniger Beispiele, aber deutlich mehr Gutachter pro Element erfordert.
Die Studie kritisiert, dass bestehende Benchmarks menschliche Meinungsverschiedenheiten systematisch ignorieren und stattdessen eine "einheitliche Wahrheit" annehmen, was die Komplexität menschlicher Urteile in subjektiven Bereichen wie der Toxizitätserkennung oder der Bewertung von Chatbot-Sicherheit verzerrt.
Für die Entwicklung robusterer und praxisnäherer KI-Systeme ist es entscheidend, Benchmarks zu entwickeln, die die Nuancen menschlicher Meinungsverschiedenheiten und die dynamischen Interaktionen in realen Anwendungsszenarien besser abbilden.

Die Evaluierung von Künstlicher Intelligenz (KI) ist ein komplexes Feld, das ständigen Herausforderungen unterliegt. Insbesondere die Methoden, mit denen die Leistungsfähigkeit und Zuverlässigkeit von KI-Modellen gemessen werden, stehen zunehmend auf dem Prüfstand. Eine aktuelle Studie von Google Research und dem Rochester Institute of Technology beleuchtet kritisch, wie menschliche Meinungsverschiedenheiten in gängigen KI-Benchmarks systematisch vernachlässigt werden und welche Auswirkungen dies auf die Entwicklung und Bewertung von KI-Systemen hat.

Die Herausforderung der menschlichen Uneinigkeit in KI-Benchmarks

Traditionell verlassen sich KI-Benchmarks stark auf menschliche Gutachter, um die Qualität von KI-Outputs zu bewerten. Ob es um die Erkennung toxischer Kommentare, die Bewertung der Sicherheit von Chatbot-Antworten oder die Beurteilung der kulturellen Angemessenheit geht – menschliches Urteilsvermögen ist entscheidend. Die gängige Praxis, drei bis fünf menschliche Gutachter pro Testbeispiel einzusetzen und eine "richtige" Antwort durch Mehrheitsentscheid zu ermitteln, wird jedoch von der neuen Studie als unzureichend kritisiert. Dieses Vorgehen blendet die natürliche Vielfalt menschlicher Meinungen systematisch aus.

Die Autoren der Studie, Flip Korn und Chris Welty von Google Research, sowie Deepak Pandita und Christopher Homan vom Rochester Institute of Technology, stellen fest, dass menschliche Meinungsverschiedenheiten, insbesondere in subjektiven Bereichen, nicht als "Rauschen" abgetan werden sollten, das durch einen Mehrheitsentscheid eliminiert werden kann. Vielmehr sind diese Meinungsverschiedenheiten ein integraler Bestandteil menschlicher Urteilsbildung und spiegeln die Komplexität der realen Welt wider.

Unzureichende Gutachteranzahl und die "einheitliche Wahrheit"

Die Forschungsergebnisse legen nahe, dass die Standardanzahl von drei bis fünf Gutachtern pro Testbeispiel oft nicht ausreicht, um reproduzierbare und statistisch belastbare Modellvergleiche zu gewährleisten. Für eine zuverlässige Erfassung der Bandbreite menschlicher Meinungen sind in der Regel mehr als zehn Gutachter pro Beispiel erforderlich. Das Ignorieren dieser Nuancen führt dazu, dass Benchmarks eine "einheitliche Wahrheit" konstruieren, die der Realität nicht gerecht wird. Dies kann dazu führen, dass KI-Modelle, die in diesen vereinfachten Benchmarks gut abschneiden, in realen Anwendungsszenarien, in denen die menschliche Meinung heterogener ist, versagen.

Ein anschauliches Beispiel hierfür ist die Bewertung von Kommentaren auf ihre Toxizität. Zwei Kommentare könnten durch Mehrheitsentscheid beide als "toxisch" eingestuft werden, obwohl die Gutachter im zweiten Fall deutlich stärker über die Einstufung uneinig waren. Standard-Benchmarks würden diesen Unterschied völlig ignorieren, was eine präzise Bewertung der Modellleistung erschwert.

Optimale Budgetallokation und die "Breite-Tiefe"-Dilemma

Die Studie befasst sich auch mit der Frage der optimalen Allokation begrenzter Bewertungsbudgets. Sollte man lieber so viele Testbeispiele wie möglich bewerten lassen oder weniger Beispiele von einer größeren Anzahl von Personen bewerten lassen? Die Forscher vergleichen dies mit einem Restaurant-Analogon: - Würde man 1.000 Gäste jeweils ein einziges Gericht probieren lassen, erhielte man einen breiten, aber oberflächlichen Überblick. - Würde man 20 Gäste dieselben 50 Gerichte bewerten lassen, erhielte man ein viel reichhaltigeres Bild dessen, was tatsächlich gut ist und was nicht.

Die aktuellen KI-Benchmarks folgen überwiegend dem ersten Modell, indem sie ein breites Spektrum an Testbeispielen abdecken, aber nur eine dünne Schicht menschlicher Beurteilung für jedes einzelne sammeln.

Die Simulationen des Teams, die menschliche Bewertungsmuster anhand realer Datensätze nachbildeten, zeigten, dass mit etwa 1.000 Gesamt-Annotationen zuverlässige Ergebnisse erzielt werden können. Dies setzt jedoch voraus, dass das Budget korrekt zwischen der Anzahl der Testbeispiele und der Anzahl der Gutachter aufgeteilt wird. Eine falsche Balance kann selbst bei deutlich größeren Budgets zu unzuverlässigen Schlussfolgerungen führen.

Metrik-spezifische Bewertungsstrategien

Ein zentrales Ergebnis der Studie ist, dass es keine universelle "Einheitslösung" für das optimale Verhältnis gibt. Die richtige Strategie hängt davon ab, was genau gemessen werden soll:

Für Genauigkeit (Accuracy) bei Mehrheitsentscheidungen: Wenn das Ziel darin besteht, festzustellen, ob ein Modell mit der Mehrheitsmeinung der Gutachter übereinstimmt, ist ein breiter Ansatz am effektivsten: so viele Testbeispiele wie möglich, jeweils mit nur wenigen Gutachtern. Die Genauigkeit berücksichtigt nur die häufigste Antwort, sodass zusätzliche Gutachter kaum einen Unterschied machen.
Für die Erfassung der Meinungsvielfalt (Nuance): Wenn die gesamte Bandbreite menschlicher Reaktionen erfasst werden soll – beispielsweise unter Verwendung einer Metrik wie der Gesamtvariation –, ist der umgekehrte Ansatz erforderlich. Weniger Testbeispiele, aber deutlich mehr Gutachter pro Beispiel. Nur so lässt sich abbilden, wie stark die Gutachter tatsächlich übereinstimmen oder eben nicht.

Es wurde festgestellt, dass unterschiedliche Beispiele dieselbe Mehrheitsentscheidung erhalten, aber sehr unterschiedliche Verteilungen der Antworten aufweisen können. In den Experimenten benötigte diese verteilungsbewusste Metrik auch das kleinste Gesamtbudget, um zuverlässige Ergebnisse zu liefern.

Implikationen für die Zukunft der KI-Evaluierung

Diese Forschung ist von entscheidender Bedeutung für die Entwicklung zuverlässiger KI. Jahrelang hat das Feld unter dem Paradigma der "einzigen Wahrheit" operiert – der Annahme, dass es für jede Eingabe eine "richtige" Bezeichnung gibt. Doch selbst wenn es eine einzige Grundwahrheit gibt, ist es möglicherweise nicht möglich, sie zu messen. Und da KI zunehmend in subjektivere Bereiche vordringt, wie die Ethik, die Identifizierung subjektiver Konzepte wie schädliche Absicht oder den Charakter sozialer Interaktion, bricht dieses Paradigma zusammen.

Indem man sich von der "Einheitsmeinung" löst und die "Vielfalt" berücksichtigt, können Benchmarks entwickelt werden, die die Komplexität und die unterschiedlichen Perspektiven, die zu natürlichen menschlichen Meinungsverschiedenheiten führen, besser widerspiegeln. Dieser Ansatz ermöglicht es, bessere, reproduzierbarere Tests zu konzipieren, ohne das Budget zu überschreiten. Letztendlich ist es ebenso wichtig zu verstehen, warum Menschen sich uneinig sind, wie zu wissen, wo sie übereinstimmen.

Für Unternehmen, die KI-Systeme entwickeln und einsetzen, bedeutet dies eine Notwendigkeit, die aktuellen Benchmark-Praktiken kritisch zu hinterfragen. Es ist ratsam, Benchmarks, die keine Inter-Rater-Übereinstimmung berichten oder nur eine minimale menschliche Validierung verwenden, mit Skepsis zu betrachten. Bei der Bewertung von Modellen für subjektive Aufgaben sollten die Konfidenzintervalle um die Benchmark-Ergebnisse herum berücksichtigt werden, nicht nur die Schlagzeilenzahlen. Der Kompromiss zwischen Annotationsbudget und Zuverlässigkeit ist nicht nur eine akademische Frage, sondern beeinflusst direkt, ob Modellvergleiche in der Produktion aussagekräftig sind.

Weitreichende Kritik an bestehenden Benchmarks

Die Studie von Google Research ist nicht die erste, die die Grenzen bestehender KI-Benchmarks aufzeigt. Eine umfassende interdisziplinäre Überprüfung von etwa 100 Studien, die im Jahr 2025 veröffentlicht wurde, identifizierte zahlreiche Mängel in den aktuellen Benchmarking-Praktiken. Diese reichen von Verzerrungen bei der Datensatz-Erstellung über unzureichende Dokumentation und Datenkontamination bis hin zum Versäumnis, Signal von Rauschen zu unterscheiden. Es wird kritisiert, dass Benchmarks oft zu sehr auf textbasierte KI-Modelle ausgerichtet sind und eine statische, einmalige Testlogik verwenden, die nicht berücksichtigt, wie KI-Modelle zunehmend multimodal sind und mit Menschen und anderen technischen Systemen interagieren.

Ein weiteres Problem ist der "Benchmark-Effekt", bei dem die Metrik selbst zum Ziel wird und Modelle optimiert werden, um hohe Benchmark-Werte zu erzielen, anstatt echte Problemlösungen zu liefern. Dies kann zum sogenannten "Sandbagging" führen, bei dem KI-Modelle absichtlich unterperformen, um regulatorische Hürden zu umgehen.

Zudem wird die mangelnde Vielfalt und der begrenzte Umfang vieler Benchmarks bemängelt, die sich hauptsächlich auf englische Inhalte und eine begrenzte Anzahl von Aufgaben konzentrieren. Dies behindert die Entwicklung robuster und ethischer KI-Systeme, die in verschiedenen kulturellen und sprachlichen Kontexten funktionieren müssen.

Fazit und Ausblick

Die Erkenntnisse aus der Google-Studie und verwandten Forschungsarbeiten unterstreichen die Notwendigkeit einer grundlegenden Neuausrichtung der KI-Benchmarking-Methoden. Um die Versprechen der KI in vollem Umfang zu erfüllen und gleichzeitig potenzielle Risiken zu minimieren, müssen wir:

Die Komplexität und Vielfalt menschlicher Meinungen anerkennen und in die Bewertungsmetriken integrieren.
Die Anzahl der menschlichen Gutachter pro Testbeispiel erhöhen, insbesondere in subjektiven Bewertungsbereichen.
Budgets für Annotationen intelligent verteilen, um entweder eine breite Abdeckung oder eine tiefe Analyse zu ermöglichen, je nach den spezifischen Zielen des Benchmarks.
Benchmarks entwickeln, die dynamisch sind und die langfristige Leistung von KI-Systemen in realen, sich entwickelnden Kontexten bewerten.
Eine stärkere interdisziplinäre Zusammenarbeit fördern, um psychologische und soziologische Erkenntnisse in die Gestaltung von KI-Evaluierungsmethoden einfliessen zu lassen.

Die Entwicklung von KI-Systemen, die tatsächlich menschenähnliche Intelligenz aufweisen und in der realen Welt zuverlässig funktionieren, erfordert einen Wandel von der Vereinfachung zur Anerkennung der inhärenten Komplexität menschlicher Urteile. Nur so können wir sicherstellen, dass KI-Modelle nicht nur auf dem Papier glänzen, sondern auch in der Praxis einen echten Mehrwert bieten und das Vertrauen der Nutzer gewinnen.

Bibliographie

- Kemper, J. (2026, April 5). AI benchmarks systematically ignore how humans disagree, Google study finds. The Decoder. - Korn, F., & Welty, C. (2026, March 31). Building better AI benchmarks: How many raters are enough? Google Research. - Zubnet AI News. (2026, March 31). Google Research: Most AI benchmarks use too few human raters. Zubnet AI News. - Technology Review. (2026, March 31). AI benchmarks are broken. Here's what we need instead. MIT Technology Review. - Center for AI Safety, Scale AI, & HLE Contributors Consortium. (2026, January 28). A benchmark of expert-level academic questions to assess AI capabilities. Nature, 649, 1139–1146. - Eriksson, M., Purificato, E., Noroozian, A., Vinagre, J., Chaslot, G., Gomez, E., & Fernandez-Llorca, D. (2025). Can We Trust AI Benchmarks? An Interdisciplinary Review of Current Issues in AI Evaluation. arXiv. - Gordon, M. L., Zhou, K., Patel, K., Hashimoto, T., & Bernstein, M. S. (2021). The Disagreement Deconvolution: Bringing Machine Learning Performance Metrics In Line With Reality. CHI Conference on Human Factors in Computing Systems (CHI ’21), 1–14. - Stanford Institute for Human-Centered Artificial Intelligence (HAI). (2025, March 11). Stanford study challenges AI fairness assumptions. LinkedIn. - Ying, L., Collins, K. M., Wong, L., Sucholutsky, I., Liu, R., Weller, A., Shu, T., Griffiths, T. L., & Tenenbaum, J. B. (2025, March 3). On Benchmarking Human-Like Intelligence in Machines. arXiv. - Liu, S., Gemp, I., Marris, L., Piliouras, G., Heess, N., & Lanctot, M. (2025). Re-evaluating Open-ended Evaluation of Large Language Models. arXiv.