Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die fortschreitende Entwicklung von Künstlicher Intelligenz (KI), insbesondere von großen Sprachmodellen (LLMs), hat in vielen Bereichen zu bemerkenswerten Fortschritten geführt. Diese Modelle sind in der Lage, komplexe Aufgaben zu lösen, die noch vor wenigen Jahren als Domäne menschlicher Intelligenz galten. Eine aktuelle Studie beleuchtet jedoch eine grundlegende Einschränkung dieser hochentwickelten Systeme: ihre Schwierigkeit, die menschliche Perspektive auf den Lernprozess zu verstehen. Das Phänomen, bekannt als der „Fluch des Wissens“, deutet darauf hin, dass intelligente KI-Modelle nicht nachvollziehen können, wo menschliche Lernende Herausforderungen erleben.
Ein Forschungsteam mehrerer US-Universitäten untersuchte die Fähigkeit von über 20 Sprachmodellen, darunter GPT-5, GPT-4o sowie verschiedene Llama- und Qwen-Varianten, die Schwierigkeit von Prüfungsfragen aus menschlicher Sicht einzuschätzen. Die Modelle wurden aufgefordert, die Schwierigkeit von Fragen für menschliche Prüflinge zu bewerten. Als Referenz dienten tatsächliche Schwierigkeitsbewertungen aus Feldtests mit Studierenden in vier Bereichen: USMLE (Medizin), Cambridge (Englisch), SAT Reading/Writing und SAT Math.
Die Ergebnisse zeigten, dass die Einschätzungen der KI-Modelle kaum mit der menschlichen Wahrnehmung übereinstimmten. Die Korrelation, gemessen mit dem Spearman-Koeffizienten, lag im Durchschnitt unter 0,50, wobei 1 eine perfekte Übereinstimmung und 0 keinerlei Korrelation bedeutet. Interessanterweise schnitten neuere oder größere Modelle nicht zwangsläufig besser ab; GPT-5 erreichte lediglich einen Wert von 0,34, während das ältere GPT-4.1 mit 0,44 eine höhere Korrelation aufwies. Selbst die Kombination der 14 besten Modelle führte nur zu einer moderaten Übereinstimmung von etwa 0,66.
Das Kernproblem, das die Forscher als den „Fluch des Wissens“ bezeichnen, liegt in der überlegenen Leistungsfähigkeit der Modelle. Sie sind schlichtweg zu kompetent, um die Schwierigkeiten schwächerer Lernender nachzuvollziehen. Fragen, die Medizinstudierende vor Herausforderungen stellen, stellen für diese Systeme keine Hürde dar. Folglich können sie nicht erkennen, wo Menschen ins Stocken geraten. Im US-amerikanischen Medizinexamen lösten die meisten Modelle gerade jene Aufgaben mühelos, an denen menschliche Prüflinge am häufigsten scheiterten.
Versuche, die Modelle dazu zu bringen, die Rolle von schwachen, durchschnittlichen oder starken Studierenden einzunehmen, blieben weitgehend erfolglos. Die Genauigkeit der Modelle veränderte sich kaum, typischerweise um weniger als einen Prozentpunkt. Die Modelle sind nicht in der Lage, ihre eigenen Fähigkeiten zu reduzieren. Sie finden weiterhin die richtigen Antworten und können die typischen Fehler von Lernenden mit geringerem Kenntnisstand nicht reproduzieren.
Die Studie deckte zudem einen Mangel an Selbstwahrnehmung auf. Wenn ein Modell eine Frage als schwierig bewertet, sollte es diese auch häufiger falsch beantworten. Die Ergebnisse lagen jedoch kaum über dem Zufallsniveau. Selbst GPT-5 kann nicht zuverlässig vorhersagen, welche Aufgaben es nicht lösen wird. Schwierigkeitseinschätzungen und tatsächliche Leistung sind voneinander entkoppelt. Den Modellen fehlt somit die Selbstreflexion, um ihre eigenen Grenzen zu erkennen, so die Argumentation der Autoren.
Statt die menschliche Wahrnehmung zu approximieren, entwickeln die Modelle eine eigene, gemeinsame Bewertung. Sie stimmen stärker untereinander überein als mit menschlichen Daten – ein „Maschinenkonsens“, der systematisch von der Realität abweicht. Die Modelle unterschätzen die Schwierigkeit konsequent und bündeln ihre Vorhersagen in einem engen, niedrigen Bereich, während die tatsächlichen Schwierigkeitswerte eine viel größere Streuung aufweisen. Frühere Studien haben ebenfalls gezeigt, dass KI-Modelle dazu neigen, einen Konsens zu bilden, unabhängig davon, ob dieser richtig oder falsch ist.
Die präzise Einschätzung der Aufgabenschwierigkeit ist für die pädagogische Diagnostik von grundlegender Bedeutung. Sie beeinflusst die Gestaltung von Lehrplänen, die automatisierte Erstellung von Tests und adaptive Lernsysteme. Bislang erforderte dies umfangreiche Feldtests mit realen Studierenden. Die Hoffnung war, dass Sprachmodelle diese Aufgabe übernehmen könnten.
Die vorliegende Studie dämpft diese Erwartungen. Das Lösen von Problemen ist nicht gleichbedeutend mit dem Verständnis, warum Menschen damit Schwierigkeiten haben. Um KI im Bildungsbereich effektiv einsetzen zu können, sind laut den Forschern Ansätze jenseits einfacher Prompting-Methoden erforderlich. Eine Möglichkeit besteht darin, Modelle mit Daten über studentische Fehler zu trainieren, um die Lücke zwischen Maschinenfähigkeiten und menschlichem Lernen zu schließen.
Nichtsdestotrotz bestätigen OpenAIs eigene Nutzungsdaten die wachsende Rolle der KI in der Bildung. In einer Rangliste der beliebtesten Anwendungsfälle in Deutschland stand „Schreiben und Bearbeiten“ an erster Stelle, dicht gefolgt von „Nachhilfe und Bildung“.
Der ehemalige OpenAI-Forscher Andrej Karpathy forderte kürzlich eine radikale Überarbeitung des Bildungssystems. Sein Argument: Schulen sollten davon ausgehen, dass jede außerhalb des Klassenzimmers erbrachte Arbeit KI-Unterstützung beinhaltete, da Erkennungstools nicht zuverlässig funktionieren. Karpathy plädierte für ein „flipped classroom“-Modell, bei dem Prüfungen in der Schule stattfinden und der Wissenserwerb mit KI-Hilfe zu Hause erfolgt. Ziel ist eine duale Kompetenz: Studierende sollen wissen, wie man mit KI arbeitet, aber auch ohne sie auskommt.
Die Erkenntnisse aus dieser Studie sind für Unternehmen im B2B-Bereich von Relevanz, insbesondere für Anbieter von Bildungs- oder Trainingslösungen. Sie verdeutlichen, dass die reine technische Leistungsfähigkeit von KI-Modellen nicht ausreicht, um menschliche Lernprozesse vollständig zu unterstützen. Es bedarf einer gezielten Entwicklung von KI-Anwendungen, die die spezifischen Herausforderungen und Bedürfnisse menschlicher Lernender berücksichtigen und in der Lage sind, Empathie für den Lernprozess zu simulieren oder durch entsprechende Datensätze zu erlernen. Dies eröffnet neue Felder für Forschung und Entwicklung, um KI als echten Partner im Bildungswesen zu etablieren.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen