Für Teams, Einzelnutzer, Kanzleien und Transkription – derselbe Mindverse Look, klar aufgeteilt nach Anwendungsfall.
für Teams und Unternehmen
Die Plattform für Unternehmen, die eigene KI-Workflows, Wissensdatenbanken und Assistenten produktiv einsetzen möchten.
für Einzelnutzer und Creator
Der einfachste Einstieg in das Mindverse-Ökosystem für Content, Recherche, Bilder, Audio und produktives Arbeiten.
für Juristen und Kanzleien
Die spezialisierte KI-Lösung für juristische Recherche, Vertragsarbeit und kanzleispezifische Workflows.
für Audio, Meetings und Transkription
Schnelle KI-Transkription für Audiodateien und Meetings – ideal zum sofortigen Start oder für regelmäßige Nutzung.

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Integration fortschrittlicher künstlicher Intelligenz (KI) direkt auf mobilen Geräten stellt eine der prägendsten Entwicklungen im Technologiesektor dar. Insbesondere die Fähigkeit, komplexe Denkprozesse, sogenannte Reasoning Chains, effizient auf Smartphones auszuführen, ist von zentraler Bedeutung für die Realisierung autonomer und datenschutzfreundlicher KI-Anwendungen. Qualcomm AI Research hat hierbei einen signifikanten Fortschritt erzielt, indem es die Länge dieser Reasoning Chains um durchschnittlich das 2,4-fache reduzieren konnte. Dieser technische Durchbruch ebnet den Weg für die Verlagerung von serverbasierten KI-Funktionen hin zu leistungsstarken On-Device-Lösungen.
Die Ausführung von komplexen Sprachmodellen mit Reasoning-Fähigkeiten auf mobilen Geräten birgt inhärente Schwierigkeiten. Traditionelle Reasoning-Modelle, die mehrstufige Denkprozesse durchlaufen, erzeugen oft sehr lange Token-Ketten. Diese „Gedankengänge“ beanspruchen erhebliche Mengen an Speicherplatz und Rechenleistung, was zu einem hohen Energieverbrauch und längeren Antwortzeiten auf Smartphones führt. Die schiere Menge an generierten Token kann die Speicherkapazitäten mobiler Geräte schnell übersteigen und die Akkulaufzeit drastisch verkürzen. Ziel ist es, diese Modelle so zu optimieren, dass sie auch unter den begrenzten Ressourcen eines Smartphones reibungslos funktionieren, ohne dabei an Genauigkeit oder Funktionalität einzubüßen.
Anstatt ein völlig neues Modell von Grund auf zu entwickeln, verfolgte Qualcomm einen modularen Ansatz. Das Forschungsteam nutzte ein bestehendes Sprachmodell (Qwen2.5-7B-Instruct) als Basis und erweiterte es durch sogenannte LoRA-Adapter (Low-Rank Adaptation). Diese kleinen, spezialisierten Zusatzmodule können je nach Bedarf aktiviert oder deaktiviert werden. Dies ermöglicht es dem System, flexibel zwischen zwei Modi zu wechseln:
Dieser modulare Aufbau erlaubt es, nur etwa 4 Prozent der Parameter neu zu trainieren, was den Trainingsaufwand erheblich reduziert. Trotz des geringeren Trainingsaufwands erreicht das Modell eine Leistung, die der von ressourcenintensiveren Modellen wie DeepSeek-R1-Distill-Qwen-7B nahekommt. Ein integrierter Klassifikator entscheidet zudem automatisch, ob der komplexere Reasoning-Modus für eine bestimmte Anfrage überhaupt notwendig ist, wodurch Rechenleistung und Energie bei einfachen Fragen gespart werden.
Ein wesentliches Problem bei Reasoning-Modellen ist ihre Tendenz zur „epistemischen Zögerlichkeit“ oder „Überdenken“, bei der sie oft redundante Schritte ausführen, um ihre eigenen Lösungen zu überprüfen. Dies führt zu einem „Token-Bloat“, also einer übermäßigen Anzahl von Token in den Denkprozessen. Um diesem entgegenzuwirken, setzte Qualcomm Reinforcement Learning (RL) ein. Dabei wurden überlange Antworten gezielt bestraft, was zu einer durchschnittlichen Reduzierung der Antworten um das 2,4-fache führte. Bei einigen Aufgaben konnte die Reduzierung sogar das 8-fache erreichen. Beispielsweise konnte eine algebraische Vereinfachung, die ursprünglich 3.118 Token benötigte, nach der Optimierung in nur 810 Token gelöst werden, ohne dass die Genauigkeit wesentlich beeinträchtigt wurde. Interessanterweise musste das Belohnungssystem des RL-Modells angepasst werden, da das Modell anfänglich lernte, den Reasoning-Block formal zu schließen, aber die ausführliche Deliberation im regulären Antwortbereich fortzusetzen.
Das entwickelte Framework ermöglicht es dem Modell zusätzlich, mehrere Lösungswege parallel zu verfolgen. Eine kleine Evaluations-Einheit innerhalb des Basismodells schätzt dabei ein, welche Antwort am wahrscheinlichsten korrekt ist. Durch die gleichzeitige Ausführung von acht parallelen Pfaden konnte die Genauigkeit auf dem MATH500-Mathematik-Benchmark um etwa 10 Prozent gesteigert werden, ohne die Antwortzeit signifikant zu erhöhen. Dies ist darauf zurückzuführen, dass die Token-Generierung auf mobilen Geräten häufig durch den Speicherzugriff und nicht durch die Rechenleistung begrenzt ist. Die parallelen Pfade nutzen somit ungenutzte Kapazitäten aus.
Um die Modelle tatsächlich auf einem Smartphone ausführen zu können, komprimiert Qualcomm die Modellgewichte auf 4 Bit. Die Reasoning-Adapter müssen dabei direkt auf dem komprimierten Modell trainiert werden, da das System sonst zufälligen Text erzeugen würde. Trotz dieser aggressiven Kompression verliert das finale Modell nur etwa 2 Prozent seiner Genauigkeit im Vergleich zur unkomprimierten Version.
Die Fähigkeit, komplexe Reasoning-Modelle lokal auf Smartphones auszuführen, hat weitreichende Konsequenzen. Sie bietet strukturelle Vorteile wie:
Qualcomm engagiert sich seit Jahren für die Integration von KI-Modellen auf mobilen Geräten und hat bereits 80 voroptimierte KI-Modelle für Snapdragon-Geräte veröffentlicht. Auch Google hat mit FunctionGemma und der AI Edge Gallery ähnliche Schritte unternommen, um kleine Sprachmodelle lokal auf Android-Geräten zu betreiben.
Trotz der bemerkenswerten technischen Fortschritte bleiben die meisten dieser lokalen KI-Implementierungen auf Smartphones vorerst Machbarkeitsstudien. Für eine tiefe Systemintegration, bei der KI-Assistenten beispielsweise auf E-Mails, Fotos oder Kalender zugreifen müssen, setzen Unternehmen wie Google weiterhin auf cloudbasierte Modelle. Googles jüngst angekündigte "Personal Intelligence"-Funktion, die Gemini mit Gmail, Google Fotos und der Suche verbindet, läuft beispielsweise vollständig serverseitig.
Die zukünftige Entwicklung wird zeigen, inwieweit die Hardware- und Softwareoptimierungen es ermöglichen, die "Intelligenz" der Geräte nicht nur an der Prozessorgeschwindigkeit, sondern auch an der Effizienz ihrer Reasoning Chains und der Dichte ihres lokalen Wissens zu messen. Qualcomms Ansatz, die Denkprozesse von KI-Modellen zu komprimieren, stellt einen wichtigen Schritt dar, um das volle Potenzial der On-Device-KI auszuschöpfen und den Übergang zu einem "denkenden Smartphone" zu beschleunigen.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen