Auf der diesjährigen European Conference on Computer Vision (ECCV) präsentierte Aleksandar Shtedritski, Forscher an der University of Oxford, SHIC, eine neue Methode zur Erstellung von Form-Bild-Korrespondenzen ohne Schlüsselpunktüberwachung. Die ECCV, eine alle zwei Jahre stattfindende Konferenz, die von der European Computer Vision Association (ECVA) organisiert wird, gilt als eine der wichtigsten Veranstaltungen in den Bereichen Computer Vision und Maschinelles Lernen.
Die kanonische Oberflächenabbildung ist ein Verfahren, das darauf abzielt, jedem Pixel eines Objekts in einem Bild einen entsprechenden Punkt in einem 3D-Modell zuzuordnen. Diese Technik, die durch DensePose für die Analyse von Menschen populär wurde, stellt eine Verallgemeinerung der Schlüsselpunkterkennung dar und birgt großes Potenzial für verschiedene Anwendungen in der Computer Vision.
Bisherige Versuche, dieses Konzept auf weitere Kategorien auszuweiten, waren jedoch aufgrund des hohen Aufwands für die manuelle Überwachung nur begrenzt erfolgreich. Die Erstellung von Trainingsdaten für kanonische Karten erfordert aufwendige manuelle Annotationen, die zeitaufwendig und kostspielig sind.
SHIC umgeht diese Einschränkung, indem es auf Foundation Models wie DINO und Stable Diffusion zurückgreift. Diese Modelle sind „Open-Ended“, d.h. sie wurden auf riesigen Datensätzen trainiert und verfügen über ein breites Wissen über natürliche Kategorien.
Die Kernidee von SHIC besteht darin, das Problem der Schätzung von Bild-zu-Vorlage-Korrespondenzen auf die Vorhersage von Bild-zu-Bild-Korrespondenzen zu reduzieren. Dies wird erreicht, indem Bilder des Objekts mit nicht-fotorealistischen Renderings des 3D-Modells abgeglichen werden. Diese Renderings ahmen den Prozess der manuellen Annotation nach und ermöglichen es SHIC, aus den Bild-zu-Bild-Korrespondenzen hochwertige kanonische Karten zu lernen.
In seinen Experimenten zeigte SHIC vielversprechende Ergebnisse und übertraf in den meisten Kategorien die Leistung von Methoden, die auf manueller Überwachung basieren. Dies unterstreicht das Potenzial von Foundation Models, die Grenzen in der Computer Vision zu verschieben und neue Möglichkeiten für das Lernen komplexer Zusammenhänge zu eröffnen.
Die Forschungsergebnisse von Shtedritski und seinem Team eröffnen spannende Perspektiven für die Zukunft der kanonischen Oberflächenabbildung. Durch die Nutzung der Leistungsfähigkeit von Foundation Models könnte SHIC den Weg für effizientere und vielseitigere Anwendungen in Bereichen wie Objektverfolgung, 3D-Rekonstruktion und Robotik ebnen.