Skalierbare Datensynthese zur Verbesserung der Schlussfolgerungsfähigkeit von LLMs

Kategorien:
No items found.
Freigegeben:
October 25, 2024

Artikel jetzt als Podcast anhören

Die Verbesserung der Schlussfolgerungsfähigkeit von LLMs durch skalierbare Fragen-Synthese

Die Leistungsfähigkeit großer Sprachmodelle (LLMs) im Bereich der Schlussfolgerung hängt maßgeblich von der Verfügbarkeit qualitativ hochwertiger Trainingsdaten ab. Bisherige Ansätze zur Verbesserung der Schlussfolgerungsfähigkeit konzentrierten sich auf die Erweiterung bestehender Datensätze durch Augmentierung von Beispielfragen oder die Nutzung von Wissensdatenbanken. Neuere Forschungsergebnisse deuten darauf hin, dass die kontinuierliche Skalierung der Datensynthese mithilfe leistungsstarker Modelle wie GPT-4 das Schlussfolgerungspotenzial von LLMs weiter steigern kann. Trotz dieser vielversprechenden Entwicklungen mangelt es der Open-Source-Community an umfangreichen, qualitativ hochwertigen Datensätzen und kostengünstigen, skalierbaren Methoden zur Datensynthese. Ein neuer Ansatz namens ScaleQuest adressiert diese Herausforderung. ScaleQuest ist eine skalierbare Methode zur Datensynthese, die "kleinere" Open-Source-Modelle (z.B. 7B Parameter) nutzt, um Fragen von Grund auf neu zu generieren. Im Gegensatz zu bisherigen Verfahren benötigt ScaleQuest keine Seed-Daten und umgeht komplexe Augmentierungsbeschränkungen. Durch die effiziente Anwendung von ScaleQuest wurde ein Datensatz für mathematisches Schlussfolgern erstellt, der aus einer Million Problem-Lösungs-Paaren besteht und sich als effektiver als bestehende Open-Source-Datensätze erwiesen hat. Die Anwendung dieses Datensatzes führte zu einer Leistungssteigerung gängiger Open-Source-Modelle (Mistral, Llama3, DeepSeekMath und Qwen2-Math) zwischen 29,2% und 46,4% im MATH-Benchmark. Bemerkenswerterweise übertraf das Fine-Tuning des Qwen2-Math-7B-Base-Modells mit dem neuen Datensatz sogar die Leistung von Qwen2-Math-7B-Instruct, einem leistungsstarken und gut abgestimmten Modell, das auf nicht-öffentlichen Daten trainiert wurde, sowie proprietäre Modelle wie GPT-4-Turbo und Claude-3.5 Sonnet. Die Skalierbarkeit von ScaleQuest ermöglicht die kostengünstige Erstellung großer Datensätze. Die Verwendung kleinerer Open-Source-Modelle reduziert die Rechenkosten im Vergleich zur Nutzung von leistungsstärkeren, proprietären Modellen wie GPT-4. Die Fähigkeit, Fragen ohne Seed-Daten zu generieren, vereinfacht den Prozess der Datensynthese erheblich. Die Eliminierung komplexer Augmentierungsbeschränkungen reduziert den Bedarf an manueller Datenaufbereitung. Die Ergebnisse der Studie unterstreichen das Potenzial von ScaleQuest, die Entwicklung von Open-Source-LLMs im Bereich des mathematischen Schlussfolgerns voranzutreiben. Die Verfügbarkeit großer, qualitativ hochwertiger Datensätze ermöglicht es der Open-Source-Community, leistungsstärkere und besser angepasste LLMs zu entwickeln. Die kostengünstige und skalierbare Natur von ScaleQuest ermöglicht es Forschern und Entwicklern, mit begrenzten Ressourcen an der Verbesserung von LLMs zu arbeiten. Die weitere Erforschung und Entwicklung von ScaleQuest und ähnlichen Methoden könnte zu signifikanten Fortschritten im Bereich des maschinellen Lernens führen. Bibliographie Ding, Y., Shi, X., Liang, X., Li, J., Zhu, Q., & Zhang, M. (2024). Unleashing Reasoning Capability of LLMs via Scalable Question Synthesis from Scratch. *arXiv preprint arXiv:2410.18693*. Chan, X., Wang, X., Yu, D., Mi, H., & Yu, D. (2024). Scaling Synthetic Data Creation with 1,000,000,000 Personas. *arXiv preprint arXiv:2406.20094v1*. Li, Z., Wallace, E., Shen, S., Lin, Z., Ke, G., Klein, D., & Darrell, T. (2024). Detecting Pretraining Data from Large Language Models. *OpenReview*. Wang, Y., Dong, X. L., Mi, F., Zeng, X., Huang, W., Shang, L., Jiang, X., & Liu, Q. (2023). Aligning Large Language Models with Human: A Survey. *arXiv preprint arXiv:2307.12966*. AppliedAI Initiative. (2023). *Large Language Models (LLM): Ein Überblick über die Technologie, Anwendungen und Herausforderungen*. *Proceedings of the 2024 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 1: Long Papers)*. (2024). *ICML 2024*.
Was bedeutet das?

Wie können wir Ihnen heute helfen?

Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.