In der Welt der Künstlichen Intelligenz (KI) und insbesondere im Bereich des Deep Learnings sind Convolutional Neural Networks (CNNs) nicht mehr wegzudenken. Sie haben sich als leistungsstarke Architektur für die Bildklassifizierung, Objekterkennung und viele andere Aufgaben erwiesen. Ein wesentliches Element von CNNs sind die sogenannten Kernel oder Filter, die über die Eingabebilder gleiten und dabei Merkmale extrahieren. Traditionell wurden in CNNs hauptsächlich kleine Kernel, typischerweise 3x3 Pixel groß, verwendet. In letzter Zeit hat jedoch ein neuer Trend Einzug gehalten: die Verwendung von großen Kerneln.
Inspiriert von den Erfolgen der Vision Transformers (ViTs), die mit ihren globalen Aufmerksamkeitsmechanismen die Art und Weise der Bildverarbeitung revolutioniert haben, besinnen sich Forscher wieder auf das Potenzial von großen Kerneln in CNNs. Die Idee dahinter ist einfach: Große Kernel können größere Bereiche des Eingabebildes erfassen und so komplexere Merkmale in einem Schritt lernen. Im Gegensatz dazu benötigen kleine Kernel mehrere Schichten, um den gleichen Bereich abzudecken, was zu einem tieferen Netzwerk und einem höheren Rechenaufwand führt.
Ein vielbeachtetes Beispiel für die Renaissance der großen Kernel ist RepLKNet (Re-parameterized Large Kernel Network), eine von Forschern der Tsinghua University, MEGVII Technology und der Aberystwyth University entwickelte CNN-Architektur. RepLKNet verwendet Kernel mit einer Größe von bis zu 31x31 Pixeln und erzielt damit beeindruckende Ergebnisse in verschiedenen Benchmarks.
Die Entwickler von RepLKNet haben fünf Designprinzipien für effiziente und leistungsstarke CNNs mit großen Kerneln formuliert:
Aufbauend auf den Erkenntnissen von RepLKNet haben die Forscher die Architektur weiterentwickelt und UniRepLKNet (Universal Representation Learning with Large Kernel Network) vorgestellt. UniRepLKNet zeichnet sich durch eine noch bessere Skalierbarkeit und Leistung aus und erzielt herausragende Ergebnisse in verschiedenen Aufgaben und Modalitäten, darunter:
Darüber hinaus zeigt UniRepLKNet vielversprechende Ergebnisse in anderen Bereichen wie Zeitreihenprognose, Audioverarbeitung, Punktwolkenverarbeitung und Videoerkennung. Diese Ergebnisse unterstreichen das Potenzial von großen Kerneln, universelle Repräsentationen zu lernen, die auf verschiedene Aufgaben und Modalitäten übertragen werden können.
Die Renaissance der großen Kernel in CNNs ist ein spannender Trend, der das Potenzial hat, die Art und Weise, wie wir Deep Learning-Modelle für die Bildverarbeitung und andere Aufgaben entwickeln, grundlegend zu verändern. RepLKNet und UniRepLKNet sind vielversprechende Beispiele für die Leistungsfähigkeit dieser Architektur, und es ist zu erwarten, dass in Zukunft weitere Innovationen in diesem Bereich folgen werden.
Besonders interessant ist die Frage, ob und wie sich die Vorteile von großen Kerneln mit anderen aktuellen Entwicklungen im Deep Learning kombinieren lassen, wie beispielsweise der Verwendung von aufmerksamkeitsbasierten Mechanismen oder der Entwicklung von effizienteren Trainingsmethoden. Die Zukunft der großen Kernel verspricht spannend zu werden.