Die Erkennung von Formeln stellt eine bedeutende Herausforderung dar, bedingt durch die komplexe Struktur und die unterschiedlichen Notationen mathematischer Ausdrücke. Trotz kontinuierlicher Fortschritte in Modellen zur Formel-Erkennung weisen die gängigen Bewertungsmetriken wie BLEU und Edit Distance weiterhin erhebliche Einschränkungen auf. Diese Metriken berücksichtigen nicht, dass dieselbe Formel verschiedene Darstellungen haben kann und stark von der Verteilung der Trainingsdaten abhängt, was zu unfairen Bewertungen führt.
Um diese Probleme zu beheben, wurde die Character Detection Matching (CDM)-Metrik entwickelt. CDM gewährleistet die Objektivität der Bewertung, indem ein image-basiertes anstelle eines LaTex-basierten Bewertungsansatzes verwendet wird. Konkret rendert CDM sowohl die vom Modell vorhergesagte LaTeX-Formel als auch die LaTeX-Formel des Ground-Truths in Bildformate und verwendet dann Techniken zur Extraktion visueller Merkmale und Lokalisierung für ein präzises Matching auf Zeichenebene, unter Einbeziehung räumlicher Positionsinformationen. Diese räumlich-bewusste und zeichenbasierte Methode bietet eine genauere und gerechtere Bewertung im Vergleich zu den vorherigen BLEU- und Edit Distance-Metriken, die ausschließlich auf textbasiertem Zeichen-Matching beruhen.
Experimentell wurden verschiedene Modelle zur Formel-Erkennung mithilfe von CDM, BLEU und ExpRate-Metriken bewertet. Die Ergebnisse zeigen, dass CDM eher den menschlichen Bewertungsstandards entspricht und einen faireren Vergleich über verschiedene Modelle hinweg ermöglicht, indem Diskrepanzen, die durch unterschiedliche Formeldarstellungen verursacht werden, eliminiert werden.
Die Metriken BLEU und Edit Distance werden häufig in Bereichen wie maschinelle Übersetzung und Texterkennung verwendet. Obwohl diese Metriken auch auf die Formel-Erkennung angewendet wurden, scheitern sie aufgrund der nicht eindeutigen Darstellung von LaTeX-Formeln, was zu ungenauen Bewertungen und unfairen Vergleichen führt. Die vorgeschlagene CDM-Metrik behebt diese Einschränkungen, indem ein image-basiertes Zeichen-Erkennungs- und Matching-Verfahren verwendet wird. Diese Methode gewährleistet eine genaue und faire Bewertung der Fähigkeiten zur Formel-Erkennung, was für die Weiterentwicklung des Feldes von entscheidender Bedeutung ist.
CDM rendert sowohl die vom Modell vorhergesagte LaTeX-Formel als auch die LaTeX-Formel des Ground-Truths in Bildformate. Anschließend werden visuelle Merkmale extrahiert und Lokalisierungstechniken für ein präzises Zeichen-Matching auf räumlicher Ebene angewendet. Dies stellt sicher, dass die Bewertung objektiv und frei von Diskrepanzen ist, die durch unterschiedliche Darstellungen der Formel entstehen könnten.
Die Einführung der CDM-Metrik hat das Potenzial, die Bewertung von Modellen zur Formel-Erkennung erheblich zu verbessern. Durch die genaue und faire Bewertung der Modelle können Forscher und Entwickler besser nachvollziehen, wie gut ein Modell in der Praxis funktioniert. Dies könnte letztendlich dazu beitragen, die Genauigkeit und Zuverlässigkeit von Systemen zur Formel-Erkennung zu erhöhen, was in verschiedenen wissenschaftlichen und technischen Anwendungen von großem Wert ist.
Die Character Detection Matching (CDM)-Metrik stellt einen bedeutenden Fortschritt in der Bewertung von Modellen zur Formel-Erkennung dar. Durch die Überwindung der Einschränkungen von BLEU und Edit Distance bietet CDM eine genauere und gerechtere Methode zur Bewertung der Formel-Erkennung. Dies könnte die Weiterentwicklung von Modellen zur Formel-Erkennung fördern und deren Anwendung in der Praxis verbessern.