Neue Maßstäbe für arabische KI: CAMEL-Bench ermöglicht umfassende Bewertung multimodaler Sprachmodelle
Die rasante Entwicklung großer multimodaler Modelle (LMMs) hat in den letzten Jahren zu beeindruckenden Fortschritten im Bereich der visuellen Wahrnehmung und des Verständnisses geführt. Modelle wie GPT-4V demonstrieren bemerkenswerte Fähigkeiten in Aufgaben wie der Bildbeschreibung oder der Beantwortung von Fragen zu Bildern. Um diese Fortschritte messbar zu machen, wurden diverse Benchmarks entwickelt. Allerdings konzentrieren sich die meisten dieser Bewertungssysteme auf die englische Sprache. Diese Lücke schließt nun CAMEL-Bench, ein neuer Benchmark, der speziell für die arabische Sprache entwickelt wurde.
Mit über 400 Millionen Sprechern weltweit stellt Arabisch eine der meistgesprochenen Sprachen dar. Bisherige Bemühungen zur Entwicklung von arabischen LMMs und entsprechenden Benchmarks waren fragmentiert und auf spezifische Bereiche beschränkt. CAMEL-Bench hingegen bietet einen umfassenden und vielfältigen Ansatz zur Bewertung von LMMs für Arabisch.
Der Benchmark umfasst acht verschiedene Domänen, die von multimodalem Verstehen und Schlussfolgern über die Analyse von handgeschriebenen Dokumenten bis hin zum Verständnis von Videos und medizinischen Bildern reichen. Diese Domänen sind weiter in 38 Subdomänen unterteilt, um eine detaillierte Analyse der Modellfähigkeiten zu ermöglichen. Insgesamt umfasst CAMEL-Bench rund 29.036 Fragen, die von arabischen Muttersprachlern sorgfältig geprüft wurden, um die Qualität und Relevanz des Benchmarks sicherzustellen.
Die Entwicklung von CAMEL-Bench erfolgte in mehreren Schritten. Zunächst wurden Daten aus verschiedenen Quellen zusammengetragen, darunter etablierte Benchmarks wie MME, MMBench und MMT-Bench-MI, sowie spezialisierte Datensätze für arabische Texte, Bilder und Videos. Die gesammelten Daten wurden anschließend ins Arabische übersetzt und von Muttersprachlern manuell verifiziert. Dieser Prozess gewährleistet die kulturelle Angemessenheit und die hohe Qualität des Benchmarks.
Erste Tests mit verschiedenen LMMs, sowohl Closed-Source-Modellen wie GPT-4 als auch Open-Source-Alternativen, zeigen den Bedarf für weitere Verbesserungen im Umgang mit arabischen multimodalen Daten. Selbst GPT-4o erreicht im Gesamtergebnis lediglich 62%. Diese Ergebnisse unterstreichen die Bedeutung von CAMEL-Bench als Werkzeug zur Förderung der Entwicklung und Verbesserung von arabischen LMMs.
CAMEL-Bench und die zugehörigen Evaluierungsskripte sind Open Source und stehen der Forschungsgemeinschaft zur Verfügung. Dies ermöglicht eine transparente und nachvollziehbare Bewertung von LMMs und fördert die Zusammenarbeit in der Entwicklung leistungsfähiger KI-Modelle für Arabisch. Der Benchmark soll dazu beitragen, die Kluft zwischen den Fortschritten im englischen Sprachraum und anderen Sprachen zu schließen und die Entwicklung von KI-Systemen zu fördern, die den Bedürfnissen einer vielfältigen globalen Gemeinschaft gerecht werden.
Bibliographie
Ahmed Heakl et al. CAMEL-Bench: A Comprehensive Arabic LMM Benchmark. arXiv preprint arXiv:2410.18976v1, 2024.
CAMEL-Bench: A Comprehensive Arabic LMM Benchmark. ChatPaper, 2024.
Zhaozhi Qian et al. CamelEval: Advancing Culturally Aligned Arabic Language Models and Benchmarks. arXiv preprint arXiv:2409.12623, 2024.
EgoAlpha. Prompt-in-Context-Learning. GitHub repository, 2024.
Ido Dagan et al. Recognizing Textual Entailment: A Hypothesis Generation Approach. In Proceedings of the Workshop on Empirical Modeling of Semantic Equivalence and Entailment, pages 65–70, 2005.
Fajri Koto et al. IndoLEM: An Indonesian Language Model. In Findings of the Association for Computational Linguistics: EMNLP 2023, pages 1273–1284, 2023.
masta-g3. llm_papers.txt. GitHub Gist, 2024.
Anonymous. AJE_RA. Archive.org, accessed 2024.
Benchmark Inc. Poetry. benchmarkinc.com.au, accessed 2024.
Gerald Gazdar. Pragmatics: Implicature, Presupposition, and Logical Form. Academic Press, 1979.