Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Künstliche Intelligenz (KI) birgt für die japanische Wirtschaft ein enormes Potenzial, mit Prognosen, die einen wirtschaftlichen Wert von über 100 Billionen Yen (etwa 650 Milliarden US-Dollar) vorhersagen. Die Realisierung dieses Potenzials hängt jedoch entscheidend von der Verfügbarkeit nutzbarer Trainingsdaten ab, einem Bereich, in dem viele KI-Projekte in Japan derzeit an ihre Grenzen stoßen.
Insbesondere für die Entwicklung von KI-Systemen, die die japanische Sprache und Kultur verstehen, ist der Mangel an qualitativ hochwertigen, aufgaben- und kulturspezifischen Datensätzen ein gravierendes Problem. Während englischsprachige Daten in Hülle und Fülle vorhanden sind, stehen japanische Entwickler vor einer chronischen Datenknappheit. Die Sammlung, Bereinigung und Etikettierung neuer Daten ist zeitaufwendig und kostspielig, was es schwierig macht, mit dem rasanten Tempo der KI-Entwicklung Schritt zu halten. Dies führt zu einer "Datenmauer", die Innovationen behindert, bevor sie richtig beginnen können.
Eine aktuelle Studie des IT-Giganten NTT DATA demonstriert, wie diese Datenmauer mithilfe synthetischer Daten überwunden werden kann. Durch die Nutzung minimaler proprietärer Daten ist es möglich, umfangreiche, betriebsfähige Trainingsdatensätze zu generieren, ohne dabei die Privatsphäre oder die Modellleistung zu beeinträchtigen.
NTT DATA setzte dabei auf NVIDIA Nemotron-Personas-Japan, den ersten offenen synthetischen Datensatz von NVIDIA, der auf japanischen demografischen, geografischen und kulturellen Merkmalen basiert und 6 Millionen Personas umfasst. Dieser Datensatz wurde mithilfe des NeMo Data Designers erstellt.
Das Ergebnis war eine signifikante Steigerung der Modellgenauigkeit von 15,3 % auf 79,3 % bei Rechts-Q&A-Aufgaben. Diese Verbesserung von über 60 Prozentpunkten wurde erzielt, ohne sensible Daten in die Trainingspipeline einzuspeisen.
Für die Validierung dieses Ansatzes führte NTT DATA eine kontrollierte Bewertung mit fiktiven Rechtsdokumenten durch. Durch die Erweiterung von nur 450 Rohdatensätzen aus 500 Nemotron-Personas-Japan-Profilen wurden über 138.000 Trainingsdaten generiert. Dies entspricht dem 300-fachen der manuellen Stichprobenerhebung und führte zu einer drastischen Verbesserung der Modellgenauigkeit.
Die Studie zeigte nicht nur eine höhere Genauigkeit, sondern auch die Eliminierung von "Halluzinationen" – plausibel klingenden, aber falschen Ausgaben – die das Basismodell zuvor beeinträchtigten. Das feinabgestimmte Modell konnte genaue Begriffe extrahieren, ohne Rauschen hinzuzufügen.
Ein weiterer wichtiger Befund ist, dass bei ausreichender Menge an synthetischen Daten für das Fine-Tuning keine kontinuierliche Vorab-Trainingsphase (CPT) mehr erforderlich ist. Dies ermöglicht Entwicklern, ressourcenintensive CPT-Schritte zu überspringen und sich auf die iterative Generierung synthetischer Daten für das Supervised Fine-Tuning (SFT) zu konzentrieren, was zu einer erheblichen Reduzierung der Rechenkosten und einer Beschleunigung der Entwicklungszyklen führt.
Shinya Higuchi, Direktor der KI-Technologieabteilung bei NTT DATA, betonte: „Durch die Erweiterung eines kleinen, proprietären Datensatzes mit Nemotron Personas können wir selbst bei begrenzten realen Daten effektive, aufgabenorientierte Modelle aufbauen. Dieser Ansatz birgt ein immenses Potenzial für Bereiche wie Kundensupport, Rechtsanalyse und Marketing, wo die Datenverfügbarkeit oft eingeschränkt ist.“
Die Verbesserung der Genauigkeit ist ein wichtiger Aspekt, doch die Frage nach der Nutzung von Daten, die aufgrund von Datenschutzbestimmungen nicht in die Trainingspipeline gelangen dürfen, bleibt bestehen. Über 90 % der wertvollen Unternehmensdaten bleiben ungenutzt, da sie durch Datenschutzvorschriften, Sicherheitsrisiken oder Lizenzbeschränkungen blockiert werden. In Japan untermauern das Gesetz zum Schutz personenbezogener Daten (PIPA) und die ab September 2025 geltenden KI-Governance-Richtlinien diese Realität.
Synthetische Daten bieten hier einen Ausweg: Sie enthalten keine persönlich identifizierbaren Informationen (PII), spiegeln aber die statistischen Muster realer Daten wider. Dies ermöglicht Unternehmen, Datenminimierung und Leistungssteigerung der Modelle gleichzeitig zu erreichen. Synthetische Daten sind somit nicht nur eine Optimierung des Lernprozesses, sondern eine Privacy-Enhancing Technology (PET), die ein Gleichgewicht zwischen Datenkonformität und KI-Leistung schafft. Die Reproduzierbarkeit und Auditierbarkeit synthetischer Datenpipelines erfüllt zudem die Anforderungen von Governance-Teams und Aufsichtsbehörden an Vertrauen und Transparenz.
Für japanische Unternehmen, die souveräne KI aufbauen, ist Datenhoheit unerlässlich. Doch die Souveränität allein genügt nicht; Modelle benötigen auch eine fundierte Intelligenz, die von lokalen Normen und Domänenbeschränkungen geprägt ist, anstatt von einer statistisch voreingenommenen, westlich zentrierten Datenbasis. Nemotron-Personas-Japan dient als grundlegende Datenquelle für eine solche realitätsnahe KI. Die 6 Millionen Personas basieren auf offiziellen japanischen demografischen und Arbeitsstatistiken und decken über 1.500 Berufsklassifikationen sowie regionale Verteilungen ab.
Über einzelne Organisationen hinaus arbeiten führende Unternehmen wie NTT DATA aktiv an der Entwicklung von "Datenräumen". Dies sind kollaborative Umgebungen, in denen Regierungen und Unternehmen unter gemeinsamen Governance- und Datenschutzgarantien synthetische Daten für das KI-Training austauschen können. Techniken wie Federated Learning ermöglichen diesen dezentralen Ansatz. Synthetische Daten verstärken dies, indem Organisationen ihre Datenmuster sicher als synthetische Daten bereitstellen können, ohne ihre ursprünglichen sensiblen Informationen offenzulegen.
Dies verschiebt das Datenrisikomanagement von einer defensiven zu einer kooperativen Haltung, im Einklang mit Japans Vision einer innovationsgesteuerten KI-Governance. Es stellt auch die Vorstellung infrage, dass der Fortschritt der KI von wenigen global trainierten Riesenmodellen abhängen sollte. Stattdessen deutet es auf eine Zukunft hin, in der souveräne, interoperable KI-Systeme auf einer offenen, datenschutzfreundlichen Grundlage in jeder Region aufgebaut werden.
Die "Datenmauer" existiert, doch die Werkzeuge zu ihrer Überwindung sind inzwischen offen zugänglich. Synthetische Daten sind keine Zukunftsvision mehr, sondern eine greifbare Lösung, die Entwickler heute einsetzen können, um datensouveräne, kulturell verankerte KI-Systeme zu schaffen, ohne Kompromisse bei Privatsphäre und Leistung einzugehen.
Um mit der Implementierung zu beginnen, können Unternehmen die Open-Source-Bibliothek NeMo Data Designer nutzen oder den Nemotron-Personas-Japan-Datensatz auf Hugging Face erkunden. Detailliertere technische Informationen zur Methodik und zum experimentellen Design sind im ausführlichen Bericht von NTT DATA (auf Japanisch) verfügbar.
Nemotron-Personas-Japan steht unter der CC BY 4.0 Lizenz zur kommerziellen und nicht-kommerziellen Nutzung zur Verfügung.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen