Die Entwicklung leistungsstarker Sprachmodelle (Large Language Models, LLMs) ist eng mit der Verfügbarkeit umfangreicher und qualitativ hochwertiger Trainingsdaten verknüpft. Besonders im Bereich der chinesischen Sprachverarbeitung stellt die Beschaffung solcher Datensätze eine Herausforderung dar. Mit CCI3.0-HQ wird nun ein neuer Datensatz vorgestellt, der das Potenzial hat, die Entwicklung chinesischer LLMs maßgeblich voranzutreiben.
CCI3.0-HQ ist ein 500 Gigabyte großer Subdatensatz des deutlich umfangreicheren Chinese Corpora Internet 3.0 (CCI3.0). Entwickelt wurde er mithilfe einer innovativen, zweistufigen Filterpipeline, die die Datenqualität im Vergleich zum ursprünglichen CCI3.0 deutlich verbessert. Die Größe des Datensatzes ist beachtlich und bietet eine solide Grundlage für das Training komplexer Sprachmodelle.
Das Herzstück von CCI3.0-HQ ist die zweistufige Hybrid-Filterpipeline. Im ersten Schritt werden die Daten durch regelbasierte Filter von unerwünschten Inhalten, wie z.B. Duplikaten und irrelevanten Zeichenfolgen, bereinigt. Im zweiten Schritt kommt ein auf dem Qwen2-72B-instruct Modell basierender Filter zum Einsatz. Dieses Modell bewertet die Qualität der verbleibenden Daten und filtert minderwertige Inhalte heraus. Dieser hybride Ansatz ermöglicht eine effektive Kombination aus automatisierter und modellgestützter Datenbereinigung.
Um die Effektivität von CCI3.0-HQ zu demonstrieren, trainierten die Entwickler ein Sprachmodell mit 0,5 Milliarden Parametern auf 100 Milliarden Tokens aus verschiedenen Datensätzen, darunter CCI3.0-HQ, CCI3.0, SkyPile und WanjuanV1. Die Ergebnisse der Evaluation in einem Zero-Shot-Setting zeigen, dass das mit CCI3.0-HQ trainierte Modell in 10 Benchmarks durchgängig bessere Leistungen erzielt als die Modelle, die mit den anderen Datensätzen trainiert wurden. Besonders hervorzuheben ist die Leistung bei der Klassifizierung chinesischer Webdaten, wo das Modell optimale F1-Scores erreichte.
CCI3.0-HQ ist frei verfügbar und soll die Entwicklung und den Zugang zu hochqualitativen chinesischen Sprachmodellen fördern. Die verbesserte Datenqualität ermöglicht es, die Fähigkeiten großer Modelle, wie Qwen2-72B-instruct, in kleinere Modelle zu destillieren. Dies eröffnet neue Möglichkeiten für die Forschung und Anwendung von LLMs, insbesondere im Hinblick auf Ressourceneffizienz und Zugänglichkeit.
Für Mindverse, ein deutsches Unternehmen, das KI-gestützte Content-Tools entwickelt, ist die Veröffentlichung von CCI3.0-HQ von großer Bedeutung. Die Entwicklung maßgeschneiderter Lösungen, wie Chatbots, Voicebots, KI-Suchmaschinen und Wissenssysteme, profitiert von hochwertigen Trainingsdaten. CCI3.0-HQ bietet Mindverse die Möglichkeit, die Leistungsfähigkeit seiner chinesischen Sprachmodelle weiter zu verbessern und seinen Kunden noch effektivere Lösungen anzubieten.
Bibliographie Wang, L. et al. (2024). CCI3.0-HQ: a large-scale Chinese dataset of high quality designed for pre-training large language models. arXiv preprint arXiv:2410.18505. Liu, Y. et al. (2022). TaiSu: A 166M Large-scale High-Quality Dataset for Chinese Vision-Language Pre-training. Advances in Neural Information Processing Systems 35 (NeurIPS 2022) Datasets and Benchmarks Track. Li, Y. et al. (2022). CSL: A Large-scale Chinese Scientific Literature Dataset. Proceedings of the 29th International Conference on Computational Linguistics (COLING 2022). Du, X. et al. (2024). Chinese Tiny LLM: Pretraining a Chinese-Centric Large Language Model. arXiv preprint arXiv:2404.04167v3. Gu, S. et al. (2022). Wukong: A 100 Million Large-scale Chinese Cross-modal Pre-training Benchmark. NeurIPS 2022 Datasets and Benchmarks. BradyFU/Awesome-Multimodal-Large-Language-Models. GitHub repository. Deduplication of Large-scale Text Datasets for Pretraining of Language Models. (2023). YouTube video. AI2. Wukong. Paperswithcode.com.