Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Sehr geehrte Damen und Herren,
die Entwicklung von Künstlicher Intelligenz (KI) ist eng mit der Verfügbarkeit und Qualität der Trainingsdaten verknüpft. In der B2B-Welt, insbesondere für Unternehmen, die auf KI-Lösungen setzen, ist die Herkunft und Lizenzierung dieser Daten von entscheidender Bedeutung. Aktuelle Nachrichten aus der KI-Community unterstreichen die wachsende Bedeutung von Open Data für die Entwicklung von Large Language Models (LLMs). Ein herausragendes Beispiel hierfür ist das Projekt "Common Corpus", das kürzlich die Marke von einer Million Downloads überschritten hat. Diese Entwicklung signalisiert ein verstärktes Interesse und eine zunehmende Akzeptanz für offen zugängliche, ethisch vertretbare Datensätze in der KI-Forschung und -Anwendung.
Die Trainingsdaten sind das Fundament jedes leistungsfähigen KI-Modells. Sie bestimmen nicht nur die Fähigkeiten und die Genauigkeit eines Modells, sondern auch dessen potenzielle Verzerrungen und ethischen Implikationen. In den letzten Jahren haben rechtliche Auseinandersetzungen, insbesondere im Zusammenhang mit urheberrechtlich geschützten Inhalten, die Notwendigkeit transparenter und klar lizenzierter Datensätze in den Vordergrund gerückt. Unternehmen, die KI-Modelle entwickeln oder nutzen, stehen vor der Herausforderung, Modelle zu verwenden, deren Trainingsdaten unzweifelhaft legal und ethisch einwandfrei sind.
Open-Source-Datensätze wie das Common Corpus bieten hier eine Lösung. Sie ermöglichen es Forschern und Unternehmen, auf eine breite Palette von Daten zuzugreifen, ohne sich über komplexe Lizenzfragen oder potenzielle Urheberrechtsverletzungen Gedanken machen zu müssen. Dies fördert nicht nur die Reproduzierbarkeit von Forschungsergebnissen, sondern auch die Entwicklung von vertrauenswürdigen und nachvollziehbaren KI-Anwendungen.
Das Common Corpus, initiiert von Pleias, ist ein umfangreiches Projekt, das sich zum Ziel gesetzt hat, den größten vollständig offenen Datensatz für das Vortraining von LLMs bereitzustellen. Mit über zwei Billionen Token (2,27 Billionen Tokens) ist es ein signifikanter Beitrag zur Open-Source-KI-Gemeinschaft.
Der Datensatz zeichnet sich durch seine Vielfalt aus, die für die Entwicklung von Modellen, die in verschiedenen Kontexten gut generalisieren, unerlässlich ist. Er umfasst Inhalte aus zahlreichen Domänen und Genres, darunter:
- Bücher - Zeitungen - Wissenschaftliche Artikel - Regierungs- und Rechtsdokumente - Code - Open-Source-Projekte wie GitHub, Wikisource und Gutenberg - Akademische Inhalte von Open Alex - Web-Text von Wikipedia, YouTube Commons und Stack Exchange - Semantische Daten von WikidataEin besonderer Wert liegt auf den kulturellen Erbedaten, insbesondere Büchern und Zeitungen aus dem Public Domain. Diese sind für das Training von Sprachmodellen von hoher Qualität, da sie Modelle darin unterstützen können, hochwertigen und stilisierten Text zu generieren. Die Nutzung von Public-Domain-Büchern umgeht die rechtlichen Herausforderungen, die oft mit urheberrechtlich geschützten Werken verbunden sind, und demokratisiert den Zugang zu kulturell reichen Langzeitdaten.
Ein weiteres herausragendes Merkmal des Common Corpus ist seine starke Multilingualität. Über 40 % des Datensatzes besteht aus nicht-englischen Inhalten. Neben Englisch und Französisch sind signifikante Mengen an Daten in folgenden Sprachen enthalten:
- Deutsch - Spanisch - Italienisch - Polnisch - Griechisch - Latein - Chinesisch - Japanisch - Arabisch - Koreanisch - HindiDiese sprachliche Vielfalt ist entscheidend, um den Zugang zu Sprach-technologien für eine breitere globale Nutzerbasis zu ermöglichen und die Entwicklung von KI-Modellen zu fördern, die über den englischsprachigen Raum hinaus relevant sind.
Die Kuratierung des Common Corpus legt einen starken Fokus auf die Qualität der Daten. Dies umfasst mehrere Aspekte:
- OCR-Korrektur: Da ein Großteil der Daten aus digitalisierten Texten stammt, wurden spezialisierte Tools wie OCRonos entwickelt, um Digitalisierungsartefakte und OCR-Fehler zu reduzieren. OCRonos, ein kleines Modell mit nur 124 Millionen Parametern, kann auch Texte mit hohen Fehlerraten korrigieren und ermöglicht die Nutzung historischer Textdaten, die zuvor aufgrund ihrer Qualität unbrauchbar waren. - Filterung toxischer Inhalte: Um Verzerrungen und schädliche Inhalte zu minimieren, wurde ein eigener Toxizitäts-Klassifikator entwickelt. Dieser identifiziert schädliche Inhalte, die dann entfernt oder syntaktisch umgeschrieben werden. Dieser Prozess ist in einem Preprint mit dem Titel „Toxicity of the Commons: Curating Open-Source Pre-Training Data“ dokumentiert. - Entfernung persönlich identifizierbarer Informationen (PII): Es wurden Anstrengungen unternommen, PII zu entfernen, wobei primär Microsoft Presidio verwendet und an sprach- und länderspezifische Gegebenheiten angepasst wurde.Diese umfassenden Maßnahmen zur Qualitätssicherung stellen sicher, dass der Datensatz nicht nur groß, sondern auch sauber und für ein ethisches KI-Training geeignet ist.
Für Unternehmen, die KI in ihren Prozessen einsetzen oder KI-Produkte entwickeln, bietet die Existenz und Popularität von Datensätzen wie dem Common Corpus mehrere Vorteile:
- Rechtssicherheit: Die Verwendung von permissiv lizenzierten oder urheberrechtsfreien Daten minimiert rechtliche Risiken im Zusammenhang mit Urheberrechtsverletzungen. Dies ist besonders wichtig in einem sich entwickelnden regulatorischen Umfeld, wie es der AI Act in Europa darstellt. - Transparenz und Vertrauen: Offene Datensätze fördern die Transparenz der KI-Entwicklung. Unternehmen können die Herkunft der Daten nachvollziehen und somit das Vertrauen in ihre KI-Modelle stärken, sowohl intern als auch bei Kunden und Partnern. - Kosteneffizienz und Zugänglichkeit: Die kostenlose Verfügbarkeit eines so umfangreichen und hochwertigen Datensatzes senkt die Eintrittsbarrieren für die Entwicklung und Forschung von LLMs erheblich. Dies ermöglicht auch kleineren Unternehmen und Start-ups den Zugang zu Ressourcen, die sonst nur großen Technologiekonzernen vorbehalten wären. - Entwicklung robusterer Modelle: Die Vielfalt der Datenquellen und Sprachen im Common Corpus trägt dazu bei, Modelle zu trainieren, die weniger anfällig für spezifische Verzerrungen sind und in einer breiteren Palette von Anwendungen und geografischen Regionen eingesetzt werden können. - Förderung von Open Science: Die Nutzung und Weiterentwicklung solcher Datensätze stärkt die Open-Science-Bewegung in der KI, was zu einer kollaborativeren und innovativeren Branche führen kann.Trotz der vielen Vorteile gibt es auch weiterhin Herausforderungen. Die Identifizierung und Kuratierung von wirklich offenen und permissiv lizenzierten Daten ist aufwendig und erfordert juristische Expertise. Automatische Tools zur Lizenzidentifizierung sind oft noch nicht zuverlässig genug, was manuelle Prüfungen notwendig macht. Auch die Erkennung von Public-Domain-Werken kann komplex sein, da der Status je nach Gerichtsbarkeit variiert.
Dennoch zeigt die Entwicklung des Common Corpus und seine schnelle Akzeptanz, dass der Bedarf an solchen Ressourcen groß ist. Die kontinuierliche Weiterentwicklung und Verfeinerung dieser Datensätze, wie die geplante Integration weiterer Sprachen und die Veröffentlichung detaillierter technischer Berichte, wird die Grundlage für eine neue Generation von KI-Modellen legen, die nicht nur leistungsfähig, sondern auch ethisch und rechtlich fundiert sind.
Die Überschreitung der Eine-Million-Downloads-Marke für das Common Corpus ist somit mehr als nur eine Zahl; sie ist ein Indikator für einen Paradigmenwechsel in der KI-Entwicklung hin zu mehr Offenheit, Transparenz und ethischer Verantwortung. Für die B2B-Welt bedeutet dies eine wachsende Verfügbarkeit von vertrauenswürdigen Ressourcen, die die Entwicklung und den Einsatz von KI-Lösungen auf eine solidere Basis stellen.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen