ModernBERT: Fortschritte und Perspektiven bei Encoder-Modellen

Kategorien:
No items found.
Freigegeben:
December 22, 2024

Artikel jetzt als Podcast anhören

ModernBERT: Ein neuer Standard für Encoder-Modelle?

Seit der Veröffentlichung von BERT im Jahr 2018 hat sich die Welt der KI-Sprachmodelle rasant weiterentwickelt. BERT, einst ein Meilenstein, ist immer noch weit verbreitet, belegt aber mit seinen 68 Millionen monatlichen Downloads auf Hugging Face nur noch den zweiten Platz. Trotz seines Alters bleibt BERT, aufgrund seiner Architektur als Encoder-only-Modell, für viele alltägliche Anwendungen relevant. Diese Architektur eignet sich hervorragend für Aufgaben wie Retrieval (z.B. für RAG), Klassifizierung (z.B. Inhaltsmoderation) und Entitätsextraktion (z.B. für Datenschutz und Compliance).

Nun präsentiert sich ModernBERT als potenzieller Nachfolger. Entwickelt von Answer.AI, LightOn und weiteren Partnern, verspricht ModernBERT Verbesserungen in Geschwindigkeit und Genauigkeit gegenüber BERT und seinen Nachfolgern. Die Entwickler haben zahlreiche Fortschritte der letzten Jahre im Bereich der großen Sprachmodelle (LLMs) in die Architektur und den Trainingsprozess von ModernBERT integriert.

ModernBERT im Vergleich zu Decoder-only-Modellen

Die jüngsten Fortschritte bei LLMs konzentrierten sich auf Decoder-only-Modelle wie GPT, Llama und Claude. Diese generativen Modelle ermöglichen beeindruckende Anwendungen wie die Erstellung von Texten und interaktive Chats. Für viele Aufgaben sind diese Modelle jedoch zu groß, langsam, ressourcenintensiv und teuer. ModernBERT hingegen läuft lokal, ist deutlich schneller und kostengünstiger.

Ein Beispiel: Das Filtern von 15 Billionen Token im FineWeb Edu-Projekt kostete mit einem BERT-basierten Modell 60.000 US-Dollar. Die gleiche Aufgabe hätte mit Google Gemini Flash, der günstigsten Decoder-basierten Option, über 1 Million US-Dollar gekostet.

Die Stärken von Encoder-only-Modellen

Encoder-only-Modelle liefern als Ausgabe einen numerischen Vektor (Embedding), der eine komprimierte Darstellung der Eingabe darstellt. Decoder-only-Modelle können zwar die Aufgaben von Encoder-only-Modellen übernehmen, sind aber durch eine entscheidende Einschränkung behindert: Sie können, da sie generative Modelle sind, nicht auf spätere Token "blicken", sondern nur rückwärts. Encoder-only-Modelle hingegen sind bidirektional trainiert und können sowohl vorwärts als auch rückwärts schauen, was sie für ihre Aufgaben sehr effizient macht.

ModernBERT integriert die Vorteile der Encoder-only-Architektur und bietet zudem eine verbesserte Kontextlänge von 8.000 Token (im Vergleich zu 512 bei den meisten Encodern). Es ist auch das erste Encoder-only-Modell, das mit einer großen Menge an Code trainiert wurde. Diese Eigenschaften eröffnen neue Anwendungsmöglichkeiten, wie z.B. die groß angelegte Codesuche, neue IDE-Funktionen und neuartige Retrieval-Pipelines, die auf dem Abruf vollständiger Dokumente statt kleiner Textabschnitte basieren.

Performance und Anwendungsmöglichkeiten

ModernBERT erzielt in verschiedenen Benchmarks Bestwerte und übertrifft damit ältere Modelle wie DeBERTaV3 in puncto Genauigkeit und Speichereffizienz. ModernBERT ist bis zu viermal schneller als DeBERTa, besonders bei Eingaben unterschiedlicher Länge. Die Entwickler sehen ModernBERT als neuen Standard für zahlreiche Anwendungen, in denen Encoder-only-Modelle eingesetzt werden, wie z.B. in RAG-Pipelines und Empfehlungssystemen.

ModernBERT ist in zwei Versionen verfügbar: ein Basismodell mit 139 Millionen Parametern und eine große Version mit 395 Millionen Parametern. Beide Modelle sind auf Hugging Face unter der Apache 2.0-Lizenz verfügbar und können als direkter Ersatz für bestehende BERT-Modelle verwendet werden. Für das nächste Jahr ist die Veröffentlichung einer größeren Version geplant, multimodale Fähigkeiten sind jedoch nicht vorgesehen.

Um die Entwicklung neuer Anwendungen zu fördern, haben die Entwickler einen Wettbewerb gestartet, bei dem die fünf besten Demos mit jeweils 100 US-Dollar und einem sechsmonatigen Hugging Face Pro-Abonnement ausgezeichnet werden.

Bibliografie: - https://the-decoder.com/modernbert-is-a-workhorse-model-that-brings-faster-cheaper-text-processing-for-tasks-like-rag/ - https://huggingface.co/blog/modernbert - https://medium.com/@bayramblog/modernbert-the-future-of-encoder-only-models-9ff2d0b8a88d - https://medium.com/data-science-in-your-pocket/modernbert-a-new-improved-bert-for-text-embeddings-538239202527 - https://www.lighton.ai/lighton-blogs/better-faster-stronger-knowledge-retrieval-and-classification-with-modernbert - https://arxiv.org/abs/2412.13663 - https://huggingface.co/organizations/CGIAR/activity/all - https://ayaka14732.github.io/bert-related-paper-abstracts/ - https://twitter.com/Dorialexander/status/1869869467003416797 - https://x.com/ncooper57
Was bedeutet das?

Wie können wir Ihnen heute helfen?

Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.