Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Forschung im Bereich der künstlichen Intelligenz (KI) schreitet rasant voran, doch mit jeder neuen Entwicklung treten auch tiefere Einblicke in die Komplexität und die Grenzen dieser Technologien zutage. Eine aktuelle Studie, die von Forschenden von Apple und der spanischen Universitat Pompeu Fabra durchgeführt wurde, wirft ein Licht auf die oft unterschätzte Fragilität der Steuerbarkeit von KI-Modellen. Die Ergebnisse legen nahe, dass die Fähigkeit von Sprachmodellen (LLMs) und Bildgeneratoren, gewünschte Ausgaben präzise und konsistent zu liefern, stark von der spezifischen Kombination aus Modell, Aufgabe und dem verwendeten Prompt abhängt. Dies hat weitreichende Implikationen für die Entwicklung und den Einsatz von KI in Geschäftsumgebungen.
Die Studie unterscheidet explizit zwischen zwei zentralen Konzepten, die in der öffentlichen Diskussion oft vermischt werden:
Diese Unterscheidung ist von entscheidender Bedeutung, da sie aufzeigt, dass selbst Modelle, die als "kontrollierbar" erscheinen, möglicherweise nicht die erforderliche Genauigkeit in der Ausführung aufweisen. Für B2B-Anwendungen, bei denen Präzision und Verlässlichkeit unerlässlich sind, ist dieser Aspekt von großer Relevanz.
Die Forscher testeten verschiedene Modelle, darunter SmolLM3-3B, Qwen3-4B und Gemma3-4B, mit Aufgaben, die scheinbar trivial sind, wie die Steuerung der Textformalität, der Stringlänge oder der Generierung gerader oder ungerader Zahlen. Die Ergebnisse waren überraschend inkonsistent:
Diese signifikanten Leistungsunterschiede zwischen den Modellen, selbst bei grundlegenden Anweisungen, deuten auf ein fundamentales Problem in der generativen KI hin. Bei der Aufgabe der Textformalität zeigten Qwen3-4B und Gemma3-4B mit 5-Shot-Prompting innerhalb von fünf Dialogrunden volle Kontrollierbarkeit. SmolLM3-3B blieb jedoch unkontrollierbar. Auffällig war auch ein starkes Überschwingen der Modelle, bei dem sie selbst bei explizitem Feedback zur Zielformalität oft in die entgegengesetzte Richtung überkorrigierten.
Ein weiteres Ergebnis der Studie betrifft die Skalierung der Modelle. Ein Experiment mit Qwen-Modellen unterschiedlicher Größe (von 0,6 bis 14 Milliarden Parametern) zeigte, dass größere Modelle tendenziell besser steuerbar sind. Allerdings flachten die meisten Verbesserungen bei etwa 4 Milliarden Parametern ab. Dies deutet darauf hin, dass eine bloße Vergrößerung der Modelle nicht unbedingt zu einer proportionalen Verbesserung der Steuerbarkeit führt und das Problem auch bei "Frontier Models" bestehen bleiben könnte.
Eine weitere, von Apple veröffentlichte Studie mit dem Titel "The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity" untersucht die Fähigkeiten von Large Reasoning Models (LRMs). Diese Modelle, die darauf ausgelegt sind, schrittweise Denkprozesse zu simulieren, zeigen bei komplexen Problemen einen "vollständigen Genauigkeitskollaps". Selbst wenn den Modellen Lösungsalgorithmen zur Verfügung gestellt wurden, scheiterten sie oft daran, explizite Anweisungen zu befolgen oder logische Schritte konsistent auszuführen. Dies deutet darauf hin, dass die scheinbare "Denkfähigkeit" dieser Modelle bei steigender Komplexität einer Illusion weichen kann. Die Forscher fanden heraus, dass LRMs bei geringer Komplexität von Standard-LLMs übertroffen werden, im mittleren Bereich Vorteile zeigen, aber bei hoher Komplexität vollständig versagen.
Die Problematik der Steuerbarkeit beschränkt sich nicht nur auf Sprachmodelle. Auch Text-zu-Bild-Modelle wie FLUX-s und SDXL wurden auf ihre Fähigkeit getestet, die Anzahl von Objekten, deren Position und die Bildsättigung zu steuern. FLUX-s zeigte eine gute Leistung bei der Objektanzahl, wobei mehr angeforderte Objekte auch zu mehr Objekten im Bild führten. Jedoch traf das Modell selten die exakte Anzahl und lag im Durchschnitt um etwa 3,5 Objekte daneben.
Besonders auffällig war die Diskrepanz zwischen Kontrollierbarkeit und Kalibrierung bei der Bildsättigung. Obwohl FLUX-s und SDXL Bilder über alle Sättigungswerte hinweg erzeugen konnten, hatte die Anforderung wenig Einfluss darauf, ob ein Bild tatsächlich stark oder leicht gesättigt war. Die Korrelation zwischen gewünschter und tatsächlicher Sättigung lag bei weniger als 0,1.
Um die systematische Analyse der Modellsteuerbarkeit zu erleichtern, haben die Forscher ihre Methoden in einem Open-Source-Toolkit veröffentlicht. Dieses Framework, das auf der Kontrolltheorie basiert, formalisiert KI-Dialogprozesse als Kontrollsysteme. Die Bereitstellung dieses Tools ist ein wichtiger Schritt, um Transparenz und Reproduzierbarkeit in der KI-Forschung zu fördern und Entwicklern die Möglichkeit zu geben, die Steuerbarkeit ihrer Modelle gründlich zu überprüfen.
Die Ergebnisse dieser Studien unterstreichen, dass die Steuerbarkeit und Verlässlichkeit von KI-Modellen keine Selbstverständlichkeit sind. Für Unternehmen, die KI-Technologien in kritischen Geschäftsprozessen einsetzen möchten, ergeben sich daraus wichtige Erkenntnisse:
Die Forschungsergebnisse von Apple, insbesondere die Betonung der "Illusion des Denkens" bei komplexen Aufgaben, mahnen zur Vorsicht vor überzogenen Erwartungen an die kognitiven Fähigkeiten aktueller KI-Systeme. Für B2B-Anbieter wie Mindverse, die als KI-Partner agieren, bedeutet dies, dass der Fokus weiterhin auf der Bereitstellung von Tools liegen muss, die nicht nur leistungsfähig, sondern auch transparent, steuerbar und an die spezifischen Bedürfnisse der Anwender anpassbar sind. Nur so kann das Vertrauen in KI-Technologien gestärkt und ihr volles Potenzial verantwortungsvoll ausgeschöpft werden.
Bibliography: - Apple. (2025). Apple Intelligence Foundation Language Models: Tech Report 2025. - Apple Machine Learning Research. (2025). Do LLMs Estimate Uncertainty Well in Instruction-Following? - Apple Machine Learning Research. (2025). Do LLMs Know Internally When They Follow Instructions? - Kemper, Jonathan. (2026). Apple study reveals AI controllability is fragile and varies wildly by task and model. The Decoder. - Mauran, Cecily. (2025). 'The illusion of thinking': Apple research finds AI models collapse and give up with hard puzzles. Mashable. - Milwaukee Independent. (2025). Illusion of thinking: Apple's study highlights advanced AI flaws confusing verbosity with cognition. - Shojaee, Parshin, et al. (2025). The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity. Apple Machine Learning Research. - Digital Watch Observatory. (2025). Apple study finds AI fails on complex tasks.Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen