Systematische Verzerrungen in den KI-Zusammenfassungen von Apple Intelligence

Kategorien:

No items found.

Freigegeben:

February 23, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Eine unabhängige Untersuchung von AI Forensics hat systematische Verzerrungen in den KI-generierten Zusammenfassungen von Apple Intelligence aufgedeckt.
Die Analyse von über 10.000 Zusammenfassungen zeigte, dass das System ethnische Zugehörigkeiten ungleich behandelt und Geschlechterstereotypen verstärkt, insbesondere bei der Verarbeitung mehrdeutiger Texte.
Weiße Protagonisten werden seltener mit ihrer Ethnizität erwähnt als andere Gruppen, und bei unklaren Berufsbezeichnungen werden geschlechtsstereotype Zuordnungen vorgenommen.
Im Vergleich zu einem kleineren Google-Modell (Gemma3-1B) zeigte Apple Intelligence eine höhere Rate an "Halluzinationen" und stereotypen Zuordnungen.
Die automatische und unaufgeforderte Bereitstellung dieser Zusammenfassungen auf Millionen von Geräten wird als kritisch bewertet, da Nutzer den Verzerrungen ohne direkte Interaktion ausgesetzt sind.
Die Ergebnisse werfen Fragen bezüglich Apples Verpflichtungen unter dem EU AI Act auf, da das Modell die Kriterien für ein "General Purpose AI"-Modell mit systemischem Risiko erfüllen könnte.

Die Einführung von Künstlicher Intelligenz (KI) in alltägliche Geräte wie Smartphones und Computer verspricht eine Revolution in der Benutzerinteraktion und Effizienz. Allerdings treten mit dieser Verbreitung auch Herausforderungen auf, insbesondere im Hinblick auf potenzielle Verzerrungen (Bias) in den KI-Systemen. Eine aktuelle und unabhängige Untersuchung des gemeinnützigen Unternehmens AI Forensics hat nun systematische Voreingenommenheiten in den KI-generierten Zusammenfassungen von Apple Intelligence aufgedeckt. Diese Funktion, die Benachrichtigungen, Textnachrichten und E-Mails auf Millionen von iPhones, iPads und Macs automatisch zusammenfasst, zeigt laut den Forschenden besorgniserregende Muster.

Systematische Verzerrungen in Apple Intelligence

Die Studie von AI Forensics, die auf der Analyse von über 10.000 von Apple Intelligence erstellten Zusammenfassungen basiert, identifizierte zwei Hauptbereiche der Voreingenommenheit: die ungleiche Behandlung ethnischer Zugehörigkeiten und die Verstärkung von Geschlechterstereotypen. Die Forschenden nutzten Apples eigenes Entwickler-Framework, um Zugang zu dem auf dem Gerät laufenden Modell zu erhalten, das Berichten zufolge etwa drei Milliarden Parameter umfasst.

Ethnische Zugehörigkeit als "unsichtbare Standardeinstellung"

Ein zentrales Ergebnis der Untersuchung ist die Art und Weise, wie Apple Intelligence ethnische Zugehörigkeiten in Zusammenfassungen behandelt. Für die Studie wurden 200 fiktive Nachrichtenartikel mit explizit erwähnten Ethnien erstellt, von denen jeweils vier Variationen generiert und zehnmal zusammengefasst wurden. Dabei zeigte sich, dass die ethnische Zugehörigkeit weißer Protagonisten in nur 53 Prozent der Fälle erwähnt wurde. Im Gegensatz dazu stieg dieser Wert bei schwarzen Protagonisten auf 64 Prozent, bei hispanischen auf 86 Prozent und bei asiatischen auf 89 Prozent. Dies deutet darauf hin, dass "Weißsein" als eine Art unsichtbare Standardeinstellung fungiert, während andere Ethnien als bemerkenswert markiert werden.

Verstärkung von Geschlechterstereotypen

Auch bei der Analyse von Geschlechterstereotypen zeigten sich deutliche Verzerrungen. Basierend auf 200 echten BBC-Schlagzeilen wurden die Vornamen von Frauen in 80 Prozent der Zusammenfassungen beibehalten, während dies bei Männern nur in 69 Prozent der Fälle geschah. Männer wurden häufiger nur mit ihrem Nachnamen genannt, was in der Forschung mit einem höheren wahrgenommenen Status in Verbindung gebracht wird.

Besonders aufschlussreich war das Verhalten des Systems bei mehrdeutigen Texten. Die Forschenden erstellten über 70.000 Szenarien mit zwei Personen unterschiedlicher Berufe und einem mehrdeutigen Pronomen. Eine korrekte Zusammenfassung hätte diese Mehrdeutigkeit beibehalten sollen. Apple Intelligence tat dies jedoch nicht. In 77 Prozent der Fälle ordnete das System das Pronomen einer bestimmten Person zu, obwohl der Originaltext dies offenließ. Zwei Drittel dieser zugewiesenen Rollen entsprachen Geschlechterstereotypen; so wurde "sie" eher der Krankenschwester und "er" dem Chirurgen zugewiesen. Diese geschlechtsbezogenen Zuweisungen spiegelten nahezu perfekt den tatsächlichen Anteil von Frauen in US-Berufen wider, wobei Rollen wie Krankenschwester und Sekretärin weiblichen Pronomen, und Mechaniker und Architekt männlichen Pronomen zugeordnet wurden.

Halluzinationen und Vorurteile in weiteren sozialen Dimensionen

Über die Geschlechter- und Ethnienanalyse hinaus zeigte das System auch in acht weiteren sozialen Dimensionen "Halluzinationen" – also die Erfindung von Informationen, die nicht im Originaltext enthalten waren. Dies geschah in 15 Prozent der Fälle, und fast drei Viertel dieser erfundenen Zuordnungen entsprachen gängigen Vorurteilen. Beispiele hierfür sind die Verknüpfung eines syrischen Studenten mit Terrorismus, die Kennzeichnung einer schwangeren Bewerberin als arbeitsunfähig oder die Darstellung einer kleinwüchsigen Person als inkompetent – all dies ohne Grundlage im Ausgangstext.

Ein kleineres Modell als Vergleichspunkt

AI Forensics betonte, dass diese Verzerrungen nicht unvermeidlich sind. Als Vergleichstest wurde Googles Modell Gemma3-1B herangezogen, ein Open-Weight-Modell mit nur einem Drittel der Parameter von Apple Intelligence. In identischen Szenarien "halluzinierte" Gemma3-1B lediglich in sechs Prozent der Fälle, verglichen mit 15 Prozent bei Apple. Wenn das Google-Modell "halluzinierte", entsprachen die Zuordnungen nur in 59 Prozent der Fälle Stereotypen, gegenüber 72 Prozent bei Apple.

Regulatorische Implikationen und Apples Reaktion

Die Ergebnisse werfen auch Fragen hinsichtlich der regulatorischen Einordnung von Apple Intelligence auf. AI Forensics argumentiert, dass Apples Modell die Kriterien für eine Klassifizierung als "General Purpose AI" (Allzweck-KI) im Rahmen des EU AI Act erfüllen könnte. Angesichts seiner Reichweite könnte es sogar als Modell mit systemischem Risiko eingestuft werden. Apple hat die freiwillige "Code of Practice" bisher nicht unterzeichnet, profitiert jedoch von einer zweijährigen Übergangsfrist.

Es ist ein bekanntes Problem, dass große Sprachmodelle (Large Language Models, LLMs) soziale Vorurteile reproduzieren können, da sie auf riesigen Datenmengen trainiert werden, die selbst gesellschaftliche Ungleichheiten und Stereotypen widerspiegeln. Eine Studie der University of Michigan zeigte beispielsweise, dass Modelle bei männlichen oder geschlechtsneutralen Rollen konsistent besser abschneiden als bei weiblichen Rollen.

Der entscheidende Unterschied bei Apple Intelligence liegt jedoch darin, dass Nutzer keine explizite Aufforderung eingeben oder ein Chatfenster öffnen müssen. Die verzerrten Zusammenfassungen erscheinen unaufgefordert auf Sperrbildschirmen, in Nachrichten-Threads und in Posteingängen. Das System schiebt sich somit zwischen Sender und Empfänger, ohne dass dies explizit angefordert wird.

Bereits Anfang 2025 geriet Apple Intelligence in die Schlagzeilen, als es gefälschte Nachrichtenzusammenfassungen generierte, die der BBC und der New York Times zugeschrieben wurden. Apple reagierte darauf, indem es die Zusammenfassungen für Nachrichten-Apps deaktivierte. Persönliche und berufliche Nachrichten waren von dieser Korrektur jedoch nicht betroffen, obwohl dort laut AI Forensics dieselben Verzerrungen auftreten.

Auch Apples breitere KI-Strategie scheint mit Herausforderungen konfrontiert. Die ursprünglich zusammen mit Apple Intelligence versprochenen Siri-Upgrades wurden größtenteils nicht ausgeliefert, und das Unternehmen hat mehrere wichtige Zusagen nicht erfüllt. Jüngsten Berichten zufolge greift Apple auf Googles Gemini zurück, um seine Geräte und Siri zu betreiben.

Methodik der Untersuchung

Für die Durchführung des Audits entwickelte AI Forensics eine spezielle Anwendung unter Verwendung von Apples eigenem Foundation Models Developer Framework, dem gleichen Weg, den Apple Drittentwicklern bietet. Die Forschenden stellten fest, dass ein kleineres, quelloffenes Modell von Google, Gemma3-1B, in denselben Testszenarien seltener und weniger stereotyp "halluzinierte", was darauf hindeutet, dass Apples Verzerrungen kein unvermeidliches Merkmal der KI-Zusammenfassung sind.

Fazit

Die Ergebnisse von AI Forensics beleuchten eine kritische Schwachstelle in der Implementierung von KI-Funktionen in weit verbreiteten Endgeräten. Die automatische und unaufgeforderte Verbreitung von stereotypen und voreingenommenen Informationen birgt das Risiko, gesellschaftliche Vorurteile zu verstärken und die Vertrauenswürdigkeit von Informationen zu untergraben. Es zeigt sich einmal mehr die Notwendigkeit einer sorgfältigen Prüfung und Regulierung von KI-Systemen, insbesondere wenn sie in großem Maßstab eingesetzt werden. Für Unternehmen im B2B-Bereich, die auf präzise und unvoreingenommene Informationsverarbeitung angewiesen sind, unterstreicht dies die Bedeutung einer kritischen Auseinandersetzung mit den zugrunde liegenden KI-Modellen und deren potenziellen Verzerrungen.

Bibliographie

Kemper, J. (2026, 22. Februar). Apple Intelligence pushes hallucinated stereotypes to millions of devices unprompted. The Decoder. Abgerufen von https://the-decoder.com/apple-intelligence-pushes-hallucinated-stereotypes-to-millions-of-devices-unprompted/
Tauber, A. (2026, 12. Februar). Apple's AI-notification exhibits racial and gender bias, researchers find. EUobserver. Abgerufen von https://euobserver.com/202646/apples-ai-notification-exhibits-racial-and-gender-bias-researchers-find/
Westerholm, T. (2026, 12. Februar). Apple’s AI Shows Racial and Gender Bias, Report Claims. Newsweek. Abgerufen von http://mag.newsweek.com/apple-ai-shows-racial-and-gender-bias-11514321
Fowler, G. A. (2025, 16. Januar). Apple pauses AI summaries that botched news headlines. The Washington Post. Abgerufen von https://www.washingtonpost.com/technology/2025/01/16/apple-intelligence-hallucination/
Reilly, L. (2025, 17. Januar). Apple is pulling its AI-generated notifications for news after generating fake headlines. ABC7 Chicago. Abgerufen von https://abc7chicago.com/post/apple-is-pulling-ai-generated-notifications-news-generating-fake-headlines/15810860/
Sherman, N. & Rahman-Jones, I. (2025, 17. Januar). Apple Intelligence: iPhone AI news alerts halted after errors. BBC News. Abgerufen von https://www.bbc.com/news/articles/cq5ggew08eyo
Hayes, T. (2024, 7. August). Apple Intelligence Prompts Warn the AI: 'Do Not Hallucinate'. PCMag. Abgerufen von https://au.pcmag.com/ai/106640/apple-intelligence-prompts-warn-the-ai-do-not-hallucinate
Herrero, O. (2025, 9. September). Revealed: Apple is teaching its AI to adapt to the Trump era. POLITICO. Abgerufen von https://www.politico.eu/article/apple-teaching-artificial-intelligence-adapt-to-trump-era/
Weatherbed, J. (2025, 17. Februar). Apple’s cartoony image generator has some bias issues. The Verge. Abgerufen von https://www.theverge.com/news/614004/apples-image-playground
Sivakumar, N., Mackraz, N., Khorshidi, S., Patel, K., Theobald, B.-J., Zappella, L., & Apostoloff, N. (2025, 30. Oktober). Bias after Prompting: Persistent Discrimination in Large Language Models. ACL Anthology. Abgerufen von https://aclanthology.org/2025.findings-emnlp.1008.pdf