Neuer Datensatz CCI3.0-HQ zur Verbesserung chinesischer Sprachmodelle

Kategorien:

No items found.

Freigegeben:

October 25, 2024

kostenlos testen KI für Unternehmen Termin buchen

Artikel jetzt als Podcast anhören

Inhaltsverzeichnis

Ein Neuer Standard für Hochwertige Chinesische Sprachmodelle: CCI3.0-HQ

Die Entwicklung leistungsstarker Sprachmodelle (Large Language Models, LLMs) ist eng mit der Verfügbarkeit umfangreicher und qualitativ hochwertiger Trainingsdaten verknüpft. Besonders im Bereich der chinesischen Sprachverarbeitung stellt die Beschaffung solcher Datensätze eine Herausforderung dar. Mit CCI3.0-HQ wird nun ein neuer Datensatz vorgestellt, der das Potenzial hat, die Entwicklung chinesischer LLMs maßgeblich voranzutreiben.

CCI3.0-HQ: Ein Auszug aus dem Chinesischen Corpora Internet 3.0

CCI3.0-HQ ist ein 500 Gigabyte großer Subdatensatz des deutlich umfangreicheren Chinese Corpora Internet 3.0 (CCI3.0). Entwickelt wurde er mithilfe einer innovativen, zweistufigen Filterpipeline, die die Datenqualität im Vergleich zum ursprünglichen CCI3.0 deutlich verbessert. Die Größe des Datensatzes ist beachtlich und bietet eine solide Grundlage für das Training komplexer Sprachmodelle.

Verbesserte Datenqualität durch Hybrid-Filtering

Das Herzstück von CCI3.0-HQ ist die zweistufige Hybrid-Filterpipeline. Im ersten Schritt werden die Daten durch regelbasierte Filter von unerwünschten Inhalten, wie z.B. Duplikaten und irrelevanten Zeichenfolgen, bereinigt. Im zweiten Schritt kommt ein auf dem Qwen2-72B-instruct Modell basierender Filter zum Einsatz. Dieses Modell bewertet die Qualität der verbleibenden Daten und filtert minderwertige Inhalte heraus. Dieser hybride Ansatz ermöglicht eine effektive Kombination aus automatisierter und modellgestützter Datenbereinigung.

Evaluierung der Leistungsfähigkeit

Um die Effektivität von CCI3.0-HQ zu demonstrieren, trainierten die Entwickler ein Sprachmodell mit 0,5 Milliarden Parametern auf 100 Milliarden Tokens aus verschiedenen Datensätzen, darunter CCI3.0-HQ, CCI3.0, SkyPile und WanjuanV1. Die Ergebnisse der Evaluation in einem Zero-Shot-Setting zeigen, dass das mit CCI3.0-HQ trainierte Modell in 10 Benchmarks durchgängig bessere Leistungen erzielt als die Modelle, die mit den anderen Datensätzen trainiert wurden. Besonders hervorzuheben ist die Leistung bei der Klassifizierung chinesischer Webdaten, wo das Modell optimale F1-Scores erreichte.

Ausblick und Bedeutung für die Forschung

CCI3.0-HQ ist frei verfügbar und soll die Entwicklung und den Zugang zu hochqualitativen chinesischen Sprachmodellen fördern. Die verbesserte Datenqualität ermöglicht es, die Fähigkeiten großer Modelle, wie Qwen2-72B-instruct, in kleinere Modelle zu destillieren. Dies eröffnet neue Möglichkeiten für die Forschung und Anwendung von LLMs, insbesondere im Hinblick auf Ressourceneffizienz und Zugänglichkeit.

Die Bedeutung für Mindverse

Für Mindverse, ein deutsches Unternehmen, das KI-gestützte Content-Tools entwickelt, ist die Veröffentlichung von CCI3.0-HQ von großer Bedeutung. Die Entwicklung maßgeschneiderter Lösungen, wie Chatbots, Voicebots, KI-Suchmaschinen und Wissenssysteme, profitiert von hochwertigen Trainingsdaten. CCI3.0-HQ bietet Mindverse die Möglichkeit, die Leistungsfähigkeit seiner chinesischen Sprachmodelle weiter zu verbessern und seinen Kunden noch effektivere Lösungen anzubieten.

Bibliographie Wang, L. et al. (2024). CCI3.0-HQ: a large-scale Chinese dataset of high quality designed for pre-training large language models. arXiv preprint arXiv:2410.18505. Liu, Y. et al. (2022). TaiSu: A 166M Large-scale High-Quality Dataset for Chinese Vision-Language Pre-training. Advances in Neural Information Processing Systems 35 (NeurIPS 2022) Datasets and Benchmarks Track. Li, Y. et al. (2022). CSL: A Large-scale Chinese Scientific Literature Dataset. Proceedings of the 29th International Conference on Computational Linguistics (COLING 2022). Du, X. et al. (2024). Chinese Tiny LLM: Pretraining a Chinese-Centric Large Language Model. arXiv preprint arXiv:2404.04167v3. Gu, S. et al. (2022). Wukong: A 100 Million Large-scale Chinese Cross-modal Pre-training Benchmark. NeurIPS 2022 Datasets and Benchmarks. BradyFU/Awesome-Multimodal-Large-Language-Models. GitHub repository. Deduplication of Large-scale Text Datasets for Pretraining of Language Models. (2023). YouTube video. AI2. Wukong. Paperswithcode.com.

Mindverse vs ChatGPT Plus Widget

Sie nutzen bereits ChatGPT Plus? Das ist ein guter Anfang! Aber stellen Sie sich vor, Sie hätten Zugang zu allen führenden KI-Modellen weltweit, könnten mit Ihren eigenen Dokumenten arbeiten und nahtlos im Team kollaborieren.

🚀 Mindverse Studio

Die professionelle KI-Plattform für Unternehmen – leistungsstärker, flexibler und sicherer als ChatGPT Plus. Mit über 50 Modellen, DSGVO-konformer Infrastruktur und tiefgreifender Integration in Unternehmensprozesse.

ChatGPT Plus

❌ Kein strukturierter Dokumentenvergleich

❌ Keine Bearbeitung im Dokumentkontext

❌ Keine Integration von Unternehmenswissen

Mindverse Studio

✅ Gezielter Dokumentenvergleich mit Custom-Prompts

✅ Kontextbewusste Textbearbeitung im Editor

✅ Wissensbasierte Analyse & Zusammenfassungen

📚 Nutzen Sie Ihr internes Wissen – intelligent und sicher

Erstellen Sie leistungsstarke Wissensdatenbanken aus Ihren Unternehmensdokumenten.Mindverse Studio verknüpft diese direkt mit der KI – für präzise, kontextbezogene Antworten auf Basis Ihres spezifischen Know-hows.DSGVO-konform, transparent und jederzeit nachvollziehbar.

ChatGPT Plus

❌ Nur ein Modellanbieter (OpenAI)

❌ Keine Modellauswahl pro Use Case

❌ Keine zentrale Modellsteuerung für Teams

Mindverse Studio

✅ Zugriff auf über 50 verschiedene KI-Modelle

✅ Modellauswahl pro Prompt oder Assistent

✅ Zentrale Steuerung auf Organisationsebene

🧠 Zugang zu allen führenden KI-Modellen – flexibel & anpassbar

✓

OpenAI GPT-4: für kreative Texte und allgemeine Anwendungen

✓

Anthropic Claude: stark in Analyse, Struktur und komplexem Reasoning

✓

Google Gemini: ideal für multimodale Aufgaben (Text, Bild, Code)

✓

Eigene Engines: individuell trainiert auf Ihre Daten und Prozesse

ChatGPT Plus

❌ Keine echte Teamkollaboration

❌ Keine Rechte- oder Rollenverteilung

❌ Keine zentrale Steuerung oder Nachvollziehbarkeit

Mindverse Studio

✅ Teamübergreifende Bearbeitung in Echtzeit

✅ Granulare Rechte- und Freigabeverwaltung

✅ Zentrale Steuerung & Transparenz auf Organisationsebene

👥 Kollaborative KI für Ihr gesamtes Unternehmen

Nutzen Sie Mindverse Studio als zentrale Plattform für abteilungsübergreifende Zusammenarbeit.Teilen Sie Wissen, erstellen Sie gemeinsame Workflows und integrieren Sie KI nahtlos in Ihre täglichen Prozesse – sicher, skalierbar und effizient.Mit granularen Rechten, transparenter Nachvollziehbarkeit und Echtzeit-Kollaboration.