Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Einführung von Künstlicher Intelligenz (KI) in alltägliche Geräte wie Smartphones und Computer verspricht eine Revolution in der Benutzerinteraktion und Effizienz. Allerdings treten mit dieser Verbreitung auch Herausforderungen auf, insbesondere im Hinblick auf potenzielle Verzerrungen (Bias) in den KI-Systemen. Eine aktuelle und unabhängige Untersuchung des gemeinnützigen Unternehmens AI Forensics hat nun systematische Voreingenommenheiten in den KI-generierten Zusammenfassungen von Apple Intelligence aufgedeckt. Diese Funktion, die Benachrichtigungen, Textnachrichten und E-Mails auf Millionen von iPhones, iPads und Macs automatisch zusammenfasst, zeigt laut den Forschenden besorgniserregende Muster.
Die Studie von AI Forensics, die auf der Analyse von über 10.000 von Apple Intelligence erstellten Zusammenfassungen basiert, identifizierte zwei Hauptbereiche der Voreingenommenheit: die ungleiche Behandlung ethnischer Zugehörigkeiten und die Verstärkung von Geschlechterstereotypen. Die Forschenden nutzten Apples eigenes Entwickler-Framework, um Zugang zu dem auf dem Gerät laufenden Modell zu erhalten, das Berichten zufolge etwa drei Milliarden Parameter umfasst.
Ein zentrales Ergebnis der Untersuchung ist die Art und Weise, wie Apple Intelligence ethnische Zugehörigkeiten in Zusammenfassungen behandelt. Für die Studie wurden 200 fiktive Nachrichtenartikel mit explizit erwähnten Ethnien erstellt, von denen jeweils vier Variationen generiert und zehnmal zusammengefasst wurden. Dabei zeigte sich, dass die ethnische Zugehörigkeit weißer Protagonisten in nur 53 Prozent der Fälle erwähnt wurde. Im Gegensatz dazu stieg dieser Wert bei schwarzen Protagonisten auf 64 Prozent, bei hispanischen auf 86 Prozent und bei asiatischen auf 89 Prozent. Dies deutet darauf hin, dass "Weißsein" als eine Art unsichtbare Standardeinstellung fungiert, während andere Ethnien als bemerkenswert markiert werden.
Auch bei der Analyse von Geschlechterstereotypen zeigten sich deutliche Verzerrungen. Basierend auf 200 echten BBC-Schlagzeilen wurden die Vornamen von Frauen in 80 Prozent der Zusammenfassungen beibehalten, während dies bei Männern nur in 69 Prozent der Fälle geschah. Männer wurden häufiger nur mit ihrem Nachnamen genannt, was in der Forschung mit einem höheren wahrgenommenen Status in Verbindung gebracht wird.
Besonders aufschlussreich war das Verhalten des Systems bei mehrdeutigen Texten. Die Forschenden erstellten über 70.000 Szenarien mit zwei Personen unterschiedlicher Berufe und einem mehrdeutigen Pronomen. Eine korrekte Zusammenfassung hätte diese Mehrdeutigkeit beibehalten sollen. Apple Intelligence tat dies jedoch nicht. In 77 Prozent der Fälle ordnete das System das Pronomen einer bestimmten Person zu, obwohl der Originaltext dies offenließ. Zwei Drittel dieser zugewiesenen Rollen entsprachen Geschlechterstereotypen; so wurde "sie" eher der Krankenschwester und "er" dem Chirurgen zugewiesen. Diese geschlechtsbezogenen Zuweisungen spiegelten nahezu perfekt den tatsächlichen Anteil von Frauen in US-Berufen wider, wobei Rollen wie Krankenschwester und Sekretärin weiblichen Pronomen, und Mechaniker und Architekt männlichen Pronomen zugeordnet wurden.
Über die Geschlechter- und Ethnienanalyse hinaus zeigte das System auch in acht weiteren sozialen Dimensionen "Halluzinationen" – also die Erfindung von Informationen, die nicht im Originaltext enthalten waren. Dies geschah in 15 Prozent der Fälle, und fast drei Viertel dieser erfundenen Zuordnungen entsprachen gängigen Vorurteilen. Beispiele hierfür sind die Verknüpfung eines syrischen Studenten mit Terrorismus, die Kennzeichnung einer schwangeren Bewerberin als arbeitsunfähig oder die Darstellung einer kleinwüchsigen Person als inkompetent – all dies ohne Grundlage im Ausgangstext.
AI Forensics betonte, dass diese Verzerrungen nicht unvermeidlich sind. Als Vergleichstest wurde Googles Modell Gemma3-1B herangezogen, ein Open-Weight-Modell mit nur einem Drittel der Parameter von Apple Intelligence. In identischen Szenarien "halluzinierte" Gemma3-1B lediglich in sechs Prozent der Fälle, verglichen mit 15 Prozent bei Apple. Wenn das Google-Modell "halluzinierte", entsprachen die Zuordnungen nur in 59 Prozent der Fälle Stereotypen, gegenüber 72 Prozent bei Apple.
Die Ergebnisse werfen auch Fragen hinsichtlich der regulatorischen Einordnung von Apple Intelligence auf. AI Forensics argumentiert, dass Apples Modell die Kriterien für eine Klassifizierung als "General Purpose AI" (Allzweck-KI) im Rahmen des EU AI Act erfüllen könnte. Angesichts seiner Reichweite könnte es sogar als Modell mit systemischem Risiko eingestuft werden. Apple hat die freiwillige "Code of Practice" bisher nicht unterzeichnet, profitiert jedoch von einer zweijährigen Übergangsfrist.
Es ist ein bekanntes Problem, dass große Sprachmodelle (Large Language Models, LLMs) soziale Vorurteile reproduzieren können, da sie auf riesigen Datenmengen trainiert werden, die selbst gesellschaftliche Ungleichheiten und Stereotypen widerspiegeln. Eine Studie der University of Michigan zeigte beispielsweise, dass Modelle bei männlichen oder geschlechtsneutralen Rollen konsistent besser abschneiden als bei weiblichen Rollen.
Der entscheidende Unterschied bei Apple Intelligence liegt jedoch darin, dass Nutzer keine explizite Aufforderung eingeben oder ein Chatfenster öffnen müssen. Die verzerrten Zusammenfassungen erscheinen unaufgefordert auf Sperrbildschirmen, in Nachrichten-Threads und in Posteingängen. Das System schiebt sich somit zwischen Sender und Empfänger, ohne dass dies explizit angefordert wird.
Bereits Anfang 2025 geriet Apple Intelligence in die Schlagzeilen, als es gefälschte Nachrichtenzusammenfassungen generierte, die der BBC und der New York Times zugeschrieben wurden. Apple reagierte darauf, indem es die Zusammenfassungen für Nachrichten-Apps deaktivierte. Persönliche und berufliche Nachrichten waren von dieser Korrektur jedoch nicht betroffen, obwohl dort laut AI Forensics dieselben Verzerrungen auftreten.
Auch Apples breitere KI-Strategie scheint mit Herausforderungen konfrontiert. Die ursprünglich zusammen mit Apple Intelligence versprochenen Siri-Upgrades wurden größtenteils nicht ausgeliefert, und das Unternehmen hat mehrere wichtige Zusagen nicht erfüllt. Jüngsten Berichten zufolge greift Apple auf Googles Gemini zurück, um seine Geräte und Siri zu betreiben.
Für die Durchführung des Audits entwickelte AI Forensics eine spezielle Anwendung unter Verwendung von Apples eigenem Foundation Models Developer Framework, dem gleichen Weg, den Apple Drittentwicklern bietet. Die Forschenden stellten fest, dass ein kleineres, quelloffenes Modell von Google, Gemma3-1B, in denselben Testszenarien seltener und weniger stereotyp "halluzinierte", was darauf hindeutet, dass Apples Verzerrungen kein unvermeidliches Merkmal der KI-Zusammenfassung sind.
Die Ergebnisse von AI Forensics beleuchten eine kritische Schwachstelle in der Implementierung von KI-Funktionen in weit verbreiteten Endgeräten. Die automatische und unaufgeforderte Verbreitung von stereotypen und voreingenommenen Informationen birgt das Risiko, gesellschaftliche Vorurteile zu verstärken und die Vertrauenswürdigkeit von Informationen zu untergraben. Es zeigt sich einmal mehr die Notwendigkeit einer sorgfältigen Prüfung und Regulierung von KI-Systemen, insbesondere wenn sie in großem Maßstab eingesetzt werden. Für Unternehmen im B2B-Bereich, die auf präzise und unvoreingenommene Informationsverarbeitung angewiesen sind, unterstreicht dies die Bedeutung einer kritischen Auseinandersetzung mit den zugrunde liegenden KI-Modellen und deren potenziellen Verzerrungen.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen