Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen
Die Entwicklung leistungsstarker Sprachmodelle (Large Language Models, LLMs) ist eng mit der Verfügbarkeit umfangreicher und qualitativ hochwertiger Trainingsdaten verknüpft. Besonders im Bereich der chinesischen Sprachverarbeitung stellt die Beschaffung solcher Datensätze eine Herausforderung dar. Mit CCI3.0-HQ wird nun ein neuer Datensatz vorgestellt, der das Potenzial hat, die Entwicklung chinesischer LLMs maßgeblich voranzutreiben.
CCI3.0-HQ ist ein 500 Gigabyte großer Subdatensatz des deutlich umfangreicheren Chinese Corpora Internet 3.0 (CCI3.0). Entwickelt wurde er mithilfe einer innovativen, zweistufigen Filterpipeline, die die Datenqualität im Vergleich zum ursprünglichen CCI3.0 deutlich verbessert. Die Größe des Datensatzes ist beachtlich und bietet eine solide Grundlage für das Training komplexer Sprachmodelle.
Das Herzstück von CCI3.0-HQ ist die zweistufige Hybrid-Filterpipeline. Im ersten Schritt werden die Daten durch regelbasierte Filter von unerwünschten Inhalten, wie z.B. Duplikaten und irrelevanten Zeichenfolgen, bereinigt. Im zweiten Schritt kommt ein auf dem Qwen2-72B-instruct Modell basierender Filter zum Einsatz. Dieses Modell bewertet die Qualität der verbleibenden Daten und filtert minderwertige Inhalte heraus. Dieser hybride Ansatz ermöglicht eine effektive Kombination aus automatisierter und modellgestützter Datenbereinigung.
Um die Effektivität von CCI3.0-HQ zu demonstrieren, trainierten die Entwickler ein Sprachmodell mit 0,5 Milliarden Parametern auf 100 Milliarden Tokens aus verschiedenen Datensätzen, darunter CCI3.0-HQ, CCI3.0, SkyPile und WanjuanV1. Die Ergebnisse der Evaluation in einem Zero-Shot-Setting zeigen, dass das mit CCI3.0-HQ trainierte Modell in 10 Benchmarks durchgängig bessere Leistungen erzielt als die Modelle, die mit den anderen Datensätzen trainiert wurden. Besonders hervorzuheben ist die Leistung bei der Klassifizierung chinesischer Webdaten, wo das Modell optimale F1-Scores erreichte.
CCI3.0-HQ ist frei verfügbar und soll die Entwicklung und den Zugang zu hochqualitativen chinesischen Sprachmodellen fördern. Die verbesserte Datenqualität ermöglicht es, die Fähigkeiten großer Modelle, wie Qwen2-72B-instruct, in kleinere Modelle zu destillieren. Dies eröffnet neue Möglichkeiten für die Forschung und Anwendung von LLMs, insbesondere im Hinblick auf Ressourceneffizienz und Zugänglichkeit.
Für Mindverse, ein deutsches Unternehmen, das KI-gestützte Content-Tools entwickelt, ist die Veröffentlichung von CCI3.0-HQ von großer Bedeutung. Die Entwicklung maßgeschneiderter Lösungen, wie Chatbots, Voicebots, KI-Suchmaschinen und Wissenssysteme, profitiert von hochwertigen Trainingsdaten. CCI3.0-HQ bietet Mindverse die Möglichkeit, die Leistungsfähigkeit seiner chinesischen Sprachmodelle weiter zu verbessern und seinen Kunden noch effektivere Lösungen anzubieten.
Bibliographie Wang, L. et al. (2024). CCI3.0-HQ: a large-scale Chinese dataset of high quality designed for pre-training large language models. arXiv preprint arXiv:2410.18505. Liu, Y. et al. (2022). TaiSu: A 166M Large-scale High-Quality Dataset for Chinese Vision-Language Pre-training. Advances in Neural Information Processing Systems 35 (NeurIPS 2022) Datasets and Benchmarks Track. Li, Y. et al. (2022). CSL: A Large-scale Chinese Scientific Literature Dataset. Proceedings of the 29th International Conference on Computational Linguistics (COLING 2022). Du, X. et al. (2024). Chinese Tiny LLM: Pretraining a Chinese-Centric Large Language Model. arXiv preprint arXiv:2404.04167v3. Gu, S. et al. (2022). Wukong: A 100 Million Large-scale Chinese Cross-modal Pre-training Benchmark. NeurIPS 2022 Datasets and Benchmarks. BradyFU/Awesome-Multimodal-Large-Language-Models. GitHub repository. Deduplication of Large-scale Text Datasets for Pretraining of Language Models. (2023). YouTube video. AI2. Wukong. Paperswithcode.com.Entdecken Sie die Vorteile gegenüber ChatGPT Plus
Sie nutzen bereits ChatGPT Plus? Das ist ein guter Anfang! Aber stellen Sie sich vor, Sie hätten Zugang zu allen führenden KI-Modellen weltweit, könnten mit Ihren eigenen Dokumenten arbeiten und nahtlos im Team kollaborieren.
Die professionelle KI-Plattform für Unternehmen – leistungsstärker, flexibler und sicherer als ChatGPT Plus. Mit über 50 Modellen, DSGVO-konformer Infrastruktur und tiefgreifender Integration in Unternehmensprozesse.
❌ Kein strukturierter Dokumentenvergleich
❌ Keine Bearbeitung im Dokumentkontext
❌ Keine Integration von Unternehmenswissen
✅ Gezielter Dokumentenvergleich mit Custom-Prompts
✅ Kontextbewusste Textbearbeitung im Editor
✅ Wissensbasierte Analyse & Zusammenfassungen
Erstellen Sie leistungsstarke Wissensdatenbanken aus Ihren Unternehmensdokumenten.Mindverse Studio verknüpft diese direkt mit der KI – für präzise, kontextbezogene Antworten auf Basis Ihres spezifischen Know-hows.DSGVO-konform, transparent und jederzeit nachvollziehbar.
❌ Nur ein Modellanbieter (OpenAI)
❌ Keine Modellauswahl pro Use Case
❌ Keine zentrale Modellsteuerung für Teams
✅ Zugriff auf über 50 verschiedene KI-Modelle
✅ Modellauswahl pro Prompt oder Assistent
✅ Zentrale Steuerung auf Organisationsebene
❌ Keine echte Teamkollaboration
❌ Keine Rechte- oder Rollenverteilung
❌ Keine zentrale Steuerung oder Nachvollziehbarkeit
✅ Teamübergreifende Bearbeitung in Echtzeit
✅ Granulare Rechte- und Freigabeverwaltung
✅ Zentrale Steuerung & Transparenz auf Organisationsebene
Nutzen Sie Mindverse Studio als zentrale Plattform für abteilungsübergreifende Zusammenarbeit.Teilen Sie Wissen, erstellen Sie gemeinsame Workflows und integrieren Sie KI nahtlos in Ihre täglichen Prozesse – sicher, skalierbar und effizient.Mit granularen Rechten, transparenter Nachvollziehbarkeit und Echtzeit-Kollaboration.
Sehen Sie Mindverse Studio in Aktion. Buchen Sie eine persönliche 30-minütige Demo.
🎯 Kostenlose Demo buchenLernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen