Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Integration großer Sprachmodelle (Large Language Models, LLMs) in geschäftskritische Anwendungen, von der Finanzbranche bis zum Gesundheitswesen, schreitet stetig voran. Mit dieser Entwicklung wächst auch die Notwendigkeit, deren Verhalten genau zu steuern und an spezifische Unternehmensrichtlinien anzupassen. Bisherige Sicherheitsbewertungen von LLMs konzentrierten sich primär auf die Vermeidung universeller Schäden, wie etwa die Generierung toxischer oder voreingenommener Inhalte. Die Einhaltung feingranularer, organisationsspezifischer Regeln – beispielsweise die Beantwortung bestimmter Fragen oder die strikte Ablehnung anderer – blieb dabei oft unzureichend adressiert. Hier setzt das COMPASS-Framework an, ein neuartiger Ansatz, der eine systematische Bewertung dieser spezifischen Richtlinienkonformität ermöglicht.
COMPASS, ausgeschrieben als "Company/Organization Policy Alignment Assessment", wurde entwickelt, um die Lücke zwischen generischen Sicherheitsstandards und den individuellen Anforderungen von Unternehmen zu schließen. Das Framework bietet eine methodische Grundlage zur Evaluierung, inwieweit LLMs die von einer Organisation definierten "Allowlist"- und "Denylist"-Richtlinien einhalten. Eine "Allowlist" definiert dabei, welche Themen oder Anfragen bearbeitet werden sollen, während eine "Denylist" festlegt, welche Inhalte oder Anfragen strikt abzulehnen sind.
Das COMPASS-Framework wird in acht unterschiedlichen Industrieszenarien angewandt, um dessen Vielseitigkeit und Relevanz zu demonstrieren. Hierfür wurden 5.920 Anfragen generiert und validiert. Diese umfassen sowohl Standardanfragen zur Überprüfung der Routinekonformität als auch sogenannte "Adversarial Robustness"-Tests. Letztere sind strategisch gestaltete Grenzfälle, die darauf abzielen, die Grenzen der Modell-Compliance auszuloten und potenzielle Schwachstellen aufzudecken.
Die Kernkomponenten des Frameworks umfassen:
Die Anwendung von COMPASS auf sieben aktuelle LLMs hat eine signifikante Asymmetrie in deren Leistungsfähigkeit offenbart. Während die Modelle legitime Anfragen mit einer Genauigkeit von über 95 % zuverlässig verarbeiten, zeigen sie bei der Durchsetzung von Verboten erhebliche Defizite. Nur zwischen 13 % und 40 % der gegen "Denylist"-Regeln verstoßenden Anfragen wurden korrekt abgelehnt.
Diese Erkenntnis ist von entscheidender Bedeutung für Unternehmen, die LLMs in sicherheitskritischen Umgebungen einsetzen möchten. Sie deutet darauf hin, dass die aktuellen LLMs nicht die notwendige Robustheit für derartige "Policy-Critical Deployments" besitzen. Die Fähigkeit eines LLM, verbotene Inhalte zuverlässig zu erkennen und abzulehnen, ist für die Minimierung von Risiken und die Wahrung der Compliance von höchster Wichtigkeit.
Die Ergebnisse der COMPASS-Studie unterstreichen die Notwendigkeit einer präziseren und umfassenderen Bewertung von LLMs, insbesondere wenn diese in regulierten oder sensiblen Geschäftsbereichen zum Einsatz kommen. Für B2B-Kunden, die auf KI-Lösungen setzen, ergeben sich daraus mehrere wichtige Schlussfolgerungen:
Das COMPASS-Framework etabliert sich als ein wichtiger Maßstab für die Bewertung der organisationsspezifischen KI-Sicherheit. Es bietet einen praxisorientierten Ansatz, um die Leistungsfähigkeit von LLMs nicht nur in Bezug auf die Generierung korrekter Antworten, sondern auch hinsichtlich der zuverlässigen Einhaltung von Unternehmensrichtlinien zu messen. Für Anbieter von KI-Lösungen wie Mindverse bedeutet dies, dass die Entwicklung von LLMs, die eine hohe Policy-Alignment-Fähigkeit aufweisen, von zentraler Bedeutung sein wird, um den Anforderungen anspruchsvoller B2B-Kunden gerecht zu werden.
Die Erkenntnisse aus der COMPASS-Forschung liefern wertvolle Impulse für die Weiterentwicklung von LLMs und die Gestaltung von KI-Systemen, die nicht nur leistungsfähig, sondern auch verantwortungsvoll und regelkonform agieren. Dies ist ein entscheidender Schritt auf dem Weg zu einer vertrauenswürdigen und sicheren Integration Künstlicher Intelligenz in die Geschäftswelt.
Die Studie zum COMPASS-Framework beleuchtet eine kritische Herausforderung im Bereich der Large Language Models: die Diskrepanz zwischen der Fähigkeit, legitime Anfragen zu bearbeiten, und der Notwendigkeit, verbotene Inhalte konsequent abzulehnen. Für Unternehmen, die LLMs in ihren Kernprozessen einsetzen, ist die Beherrschung dieser Diskrepanz von grundlegender Bedeutung. Das COMPASS-Framework bietet hierfür eine systematische Lösung und wird voraussichtlich eine Schlüsselrolle bei der Gestaltung zukünftiger Standards für die Unternehmens-KI-Sicherheit spielen.
Bibliography: - Choi, Dasol, Lee, DongGeon, Kartono, Brigitta Jesica, Berndt, Helena, Kwon, Taeyoun, Jang, Joonwon, Park, Haon, Yu, Hwanjo, & Kahng, Minsuk. (2026). COMPASS: A Framework for Evaluating Organization-Specific Policy Alignment in LLMs. arXiv preprint arXiv:2601.01836. - AIM-Intelligence. (n.d.). COMPASS: A Framework for Policy Alignment Evaluation. GitHub. Retrieved from https://github.com/AIM-Intelligence/COMPASS - Hugging Face. (2026, January 6). COMPASS - a AIM-Intelligence Collection. Retrieved from https://huggingface.co/collections/AIM-Intelligence/compass - Hugging Face. (2026, January 6). Daily Papers. Retrieved from https://huggingface.co/papers?q=allowlist - Paperreading.club. (n.d.). COMPASS: A Framework for Evaluating Organization-Specific ... Retrieved from http://paperreading.club/page?id=366306 - ChatPaper. (2026, January 6). Explore and AI Chat with the Academic Papers. Retrieved from https://chatpaper.com/chatpaper?id=2&date=1767628800&page=1 - arXiv. (2026, January 5). Computer Science > Artificial Intelligence. Retrieved from https://arxiv.org/abs/2601.01836 - Shen, Hua, Knearem, Tiffany, Ghosh, Reshmi, Yang, Yu-Ju, Clark, Nicholas, Mitra, Tanushree, & Huang, Yun. (2025, November 4). ValueCompass: A Framework for Measuring Contextual Value Alignment Between Human and LLMs. arXiv preprint arXiv:2409.09586. - Yao, Jing, Yi, Xiaoyuan, Duan, Shitong, Wang, Jindong, Bai, Yuzhuo, Huang, Muhua, Ou, Yang, Li, Scarlett, Zhang, Peng, Lu, Tun, Dou, Zhicheng, Sun, Maosong, Evans, James, & Xie, Xing. (2025, June 2). Value Compass Leaderboard: A Comprehensive, Generative and Self-Evolving Platform for LLMs’ Value Evaluation. arXiv preprint arXiv:2501.07071. - arXiv. (2025, June 2). [2501.07071] Value Compass Benchmarks: A Platform for ... Retrieved from https://arxiv.org/abs/2501.07071Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen