Die rasante Entwicklung und der zunehmende Einsatz von multimodalen Sprachmodellen (VLMs) im Gesundheitswesen weltweit erfordern robuste Bewertungsmaßstäbe. Diese Benchmarks sind entscheidend, um sicherzustellen, dass diese KI-Systeme in der Praxis sicher, wirksam und fair agieren. Während traditionelle medizinische Prüfungsdatensätze, die häufig in Form von Multiple-Choice-Fragen und -Antworten vorliegen, wertvolle Bewertungsinstrumente darstellen, sind sie größtenteils textbasiert und nur in einer begrenzten Anzahl von Sprachen und Ländern verfügbar.
Um diesen Herausforderungen zu begegnen, wurde WorldMedQA-V entwickelt. Dieser aktualisierte mehrsprachige, multimodale Benchmark-Datensatz dient der Evaluierung von VLMs im Gesundheitswesen. WorldMedQA-V umfasst 568 beschriftete Multiple-Choice-Fragen, die jeweils mit 568 medizinischen Bildern verknüpft sind. Die Daten stammen aus vier Ländern (Brasilien, Israel, Japan und Spanien) und umfassen sowohl die Originalsprachen als auch validierte englische Übersetzungen, die von muttersprachlichen Medizinern erstellt wurden.
Der Datensatz enthält Baseline-Leistungen für gängige Open- und Closed-Source-Modelle. Diese werden sowohl für die lokale Sprache als auch für die englischen Übersetzungen bereitgestellt, wobei die Modelle die Bilder entweder präsentiert bekommen oder nicht.
Das WorldMedQA-V-Benchmark zielt darauf ab, KI-Systeme besser auf die vielfältigen Umgebungen im Gesundheitswesen abzustimmen, in denen sie eingesetzt werden. Dies soll zu gerechteren, effektiveren und repräsentativeren Anwendungen führen.
Der Einsatz von realen medizinischen Prüfungsfragen in mehreren Sprachen und die Einbeziehung von Bildern stellen eine bedeutende Weiterentwicklung in der Evaluierung von VLMs im Gesundheitswesen dar. Die Entwickler sind der Überzeugung, dass WorldMedQA-V dazu beitragen wird, die Zuverlässigkeit und den verantwortungsvollen Einsatz von KI in der medizinischen Praxis zu verbessern.
Quellen:
- https://paperreading.club/page?id=259897
- https://arxiv.org/list/cs.CL/recent
- https://github.com/DAMO-NLP-SG/M3Exam
- https://arxiv.org/abs/2403.10378
- https://aclanthology.org/2024.acl-long.420.pdf
- https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models
- https://openreview.net/pdf?id=hJPATsBb3l
- https://paperswithcode.com/dataset/m3exam
- https://mm-arxiv.github.io/
- https://huggingface.co/datasets/WorldMedQA/V