RexBERT: Fortschrittliche Transformer-Encoder für E-Commerce-Anwendungen

Kategorien:

No items found.

Freigegeben:

February 5, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

RexBERT ist eine neue Familie von Transformer-Encodern, die speziell für E-Commerce-Anwendungen entwickelt wurden.
Das Modell wurde auf einem massiven, domänenspezifischen Korpus namens Ecom-niverse vortrainiert, der über 350 Milliarden Tokens aus verschiedenen Einzelhandels- und Shopping-Quellen umfasst.
Trotz einer geringeren Anzahl von Parametern (2-3x weniger) übertrifft RexBERT größere, allzwecktaugliche Encoder und erreicht oder übertrifft moderne Long-Context-Modelle bei domänenspezifischen Benchmarks.
Der Trainingsansatz von RexBERT umfasst drei Phasen: allgemeines Vortraining, Kontexterweiterung und spezialisierte Domänenanpassung ("annealed domain specialization") mit "Guided MLM".
Die Evaluierung auf Aufgaben wie Token-Klassifikation, semantische Ähnlichkeit und allgemeinem Sprachverständnis zeigt die Überlegenheit von RexBERT im E-Commerce-Kontext.
RexBERT demonstriert, dass hochwertige In-Domain-Daten in Kombination mit einem prinzipiellen Trainingsansatz eine stärkere Grundlage für E-Commerce-Anwendungen bieten als alleinige Skalierung.

Spezialisierte Encoder für den E-Commerce: Eine Analyse von RexBERT

In der dynamischen Landschaft der Künstlichen Intelligenz und des Natural Language Processing (NLP) sind spezialisierte Modelle zunehmend gefragt, um den Anforderungen spezifischer Branchen gerecht zu werden. Eine aktuelle Entwicklung in diesem Bereich ist RexBERT, eine Familie von bidirektionalen Encodern, die gezielt für die Semantik des E-Commerce konzipiert wurden. Diese Modelle, die von Rahul Bajaj und Anuj Garg entwickelt wurden, versprechen eine verbesserte Leistung bei Aufgaben, die für den Online-Handel von entscheidender Bedeutung sind, wie etwa Retrieval, Klassifikation und Ranking.

Die Notwendigkeit domänenspezifischer Modelle

Obwohl Encoder-only Transformer wie BERT in verschiedenen NLP-Anwendungen weit verbreitet sind, stoßen sie bei spezialisierten Domänen an ihre Grenzen. Allgemeine Modelle, die auf breiten Korpora trainiert wurden, erfassen oft nicht die subtilen Nuancen und spezifischen Terminologien, die in Branchen wie dem E-Commerce vorherrschen. Im E-Commerce ist die Qualität der Repräsentation direkt entscheidend für die Effektivität von Suchfunktionen, Empfehlungssystemen, Attributextraktion und Compliance-Routing. Generische Modelle können beispielsweise Schwierigkeiten haben, feine Unterschiede zwischen komplementären, Ersatz- oder irrelevanten Produkten zu erkennen.

RexBERT setzt hier an, indem es einen maßgeschneiderten Ansatz verfolgt. Es nutzt die architektonischen Fortschritte von Modellen wie ModernBERT, kombiniert diese jedoch mit einer gezielten Datenkuratierung und einem mehrphasigen Trainingsschema, um eine hohe Leistung in der E-Commerce-Domäne zu erzielen.

Ecom-niverse: Das Fundament von RexBERT

Ein zentraler Bestandteil des RexBERT-Projekts ist die Schaffung von Ecom-niverse, einem umfangreichen Korpus von über 350 Milliarden Tokens, der speziell aus verschiedenen Einzelhandels- und Shopping-Quellen kuratiert wurde. Dieser Datensatz wurde nicht einfach aus dem allgemeinen Web extrahiert, sondern durch eine modulare Pipeline, die E-Commerce-Inhalte aus Quellen wie FineFineWeb und anderen offenen Webressourcen isoliert und extrahiert. Die Zusammensetzung dieses Korpus deckt diverse Kategorien ab, darunter Mode, Beauty, Automotive und Unterhaltung, wobei Hobby- und Nachrichten-Domains die größten Anteile an gefilterten Daten liefern.

Die Kuration von Ecom-niverse erfolgte durch einen mehrstufigen Prozess:

Domain-Auswahl: Identifizierung von FineFineWeb-Domains mit hoher Überschneidung zu E-Commerce-Inhalten.
Sampling: Entnahme einer großen, vielfältigen Stichprobe aus jeder ausgewählten Domain.
LLM-basierte Labeling: Verwendung eines instruktionsoptimierten Modells (Phi-4) zur binären Relevanzbewertung von Inhalten (Relevant vs. Nicht Relevant).
Qualitätssicherung: Überwachung der Label-Qualität durch ein stärkeres Modell (Llama3-70B) und iterative Verfeinerung.
Skalierbare Filter: Training von FastText-Klassifikatoren pro Domain, um die LLM-Entscheidungsgrenzen zu approximieren und eine effiziente Bewertung großer Korpora zu ermöglichen.

Dieser sorgfältige Ansatz zur Datenkuratierung ist entscheidend, da er sicherstellt, dass die Modelle mit hochrelevanten und qualitativ hochwertigen In-Domain-Daten trainiert werden, was die Grundlage für ihre spezialisierte Leistung bildet.

Trainingsmethodik: Ein dreiphasiger Ansatz

Die Vortrainingsprozedur von RexBERT ist von ModernBERT inspiriert, wurde aber an die statistischen und semantischen Eigenschaften von E-Commerce-Texten angepasst. Dies beinhaltet Merkmale wie eine hohe Entitätsdichte, Attribut-Wert-Strukturen und domänenspezifische Terminologie. Das Training erfolgt in drei Hauptphasen:

Phase 1: Allgemeines Vortraining

In dieser ersten Phase wird das Modell auf einer vielfältigen Mischung von 1,7 Billionen Tokens trainiert, die kuratierte Webtexte, Bücher, Code, technische Papiere und mehrsprachige Inhalte umfassen. Kürzere Sequenzlängen (512 Tokens) beschleunigen die Konvergenz und stabilisieren die Optimierung. Ein hoher Maskierungsanteil (30 %) und der Einsatz von Dropout sowie moderater Temperatursampling sollen eine breite sprachliche Abdeckung gewährleisten und robuste Token-Repräsentationen sowie Aufmerksamkeitsmuster etablieren.

Phase 2: Kontexterweiterung

Aufbauend auf dem Checkpoint aus Phase 1 wird die maximale Sequenzlänge auf 8.192 Tokens erhöht. Das Modell wird für weitere 250 Milliarden Tokens trainiert, um lange Produktseiten, FAQs und verkettete Attributblöcke zu modellieren. Hierbei kommen Rotations-Positions-Embeddings (RoPE) mit NTK-basierter Skalierung und abwechselnde globale und lokale Aufmerksamkeits-Layer zum Einsatz, um die Verarbeitung langer Kontexte zu optimieren.

Phase 3: Spezialisierte Domänenanpassung (Annealing)

Die letzte Phase spezialisiert das Modell auf den Ecom-niverse-Korpus für etwa 350 Milliarden Tokens, während das allgemeine Wissen erhalten bleibt. Der Maskierungsanteil wird auf 10-15 % reduziert, und die Sampling-Gewichte werden allmählich angepasst, um E-Commerce-Daten stärker zu berücksichtigen. Dieser "Annealing"-Ansatz, der sich an BioClinical ModernBERT orientiert, verbessert die Domänenleistung, ohne dass ein "katastrophales Vergessen" des allgemeinen Wissens eintritt. Zusätzlich wird "Guided MLM" eingeführt, eine gezielte Maskierungsvariante, die informationsreiche Entitäten und Attribute priorisiert, um den Lerneffekt für semantisch relevante Inhalte zu verstärken.

Architektur und Optimierung

RexBERT verwendet eine BERT-ähnliche Encoder-Architektur mit mehreren modernen Verbesserungen, die auf ModernBERT basieren. Dazu gehören:

Biaslose Layer und Pre-Normalisierung: Verbesserung der Trainingsstabilität.
Rotary Positional Embeddings (RoPE): Ermöglichen die Extrapolation auf lange Kontexte.
GeGLU-Aktivierungen: Bieten eine bessere Optimierung im Vergleich zu GELU.
Abwechselnde globale/lokale Aufmerksamkeit: Reduziert die quadratische Komplexität bei gleichzeitiger Beibehaltung des globalen Kontexts.
Unpadding und Flash Attention: Verbessern den Durchsatz durch Entfernen von Padding-Tokens und effizientere Aufmerksamkeitsberechnungen.

Die Modelle werden in verschiedenen Größen (von 17M bis 400M Parametern) trainiert, um unterschiedliche Latenz- und Genauigkeitsanforderungen in Produktionssystemen zu erfüllen. Für die Optimierung wird StableAdamW verwendet, eine Variante von AdamW, die die Stabilität verbessert und die Notwendigkeit separater Gradienten-Clippings eliminiert.

Evaluierung und Ergebnisse

RexBERT wurde auf zwei Hauptaufgaben evaluiert, die aus dem Amazon ESCI-Datensatz abgeleitet wurden: Token-Klassifikation und semantische Ähnlichkeit. Zusätzlich wurde die Leistung auf dem GLUE-Benchmark für allgemeines Sprachverständnis bewertet.

Token-Klassifikation

Bei der Masked-Token-Recovery-Aufgabe, bei der Produktitel und -beschreibungen aus teilweisem Kontext rekonstruiert werden müssen, übertrifft RexBERT-base konsistent ModernBERT-base über alle Blockgrößen und Top-k-Einstellungen hinweg. Beispielsweise verbessert RexBERT-base die Top-1-Genauigkeit für Produkttitel bei 128 Tokens von 60,5 % auf 69,2 % und für Produktbeschreibungen von 67,8 % auf 73,1 %.

Semantische Ähnlichkeit

Bei der semantischen Ähnlichkeitsaufgabe, die die Fähigkeit der Modelle bewertet, abgestufte Relevanzbeziehungen zwischen Suchanfragen und Produkten zu erfassen, zeigt RexBERT ebenfalls eine überlegene Leistung. Die Modelle erzielen durchweg höhere Spearman-Korrelationen als Allzweck-Encoder vergleichbarer Größe, was eine bessere Ausrichtung an die E-Commerce-Relevanzsemantik anzeigt. Dies ist besonders wichtig für die Unterscheidung zwischen Ersatz- und Komplementärprodukten.

Allgemeines Sprachverständnis (GLUE-Benchmark)

Trotz der Spezialisierung auf E-Commerce-Anwendungen erzielt RexBERT auch bei mehreren Aufgaben zum allgemeinen Sprachverständnis herausragende Ergebnisse. RexBERT-large erreicht beispielsweise eine wettbewerbsfähige Leistung bei der Paraphrasenerkennung, der Multi-Genre-Inferenz und Aufgaben zur semantischen Ähnlichkeit. Kleinere RexBERT-Modelle übertreffen sogar etablierte Modelle wie DistilBERT und ettin-17m in allen bewerteten Aufgaben. Dies deutet darauf hin, dass die domänenspezifische Spezialisierung von RexBERT nicht nur in der Ziel-Domäne exzelliert, sondern auch effektiv auf allgemeine NLU-Aufgaben übertragbar ist.

Diskussion und Implikationen

Die konsistenten Ergebnisse zeigen, dass im E-Commerce-Kontext, wo die Evaluierungsverteilung stark von E-Commerce-spezifischen Daten geprägt ist, die Qualität der Daten und des Trainings-Curriculums die reine Skalierung überwiegen. Die Leistung von RexBERT, die größere Allzweck-Encoder übertrifft, legt nahe, dass die Repräsentationsqualität in dieser Domäne weniger durch die Modellkapazität als vielmehr durch die Exposition gegenüber den richtigen Long-Tail-Entitäten, Attribut-Wert-Konstruktionen und dem gesamten Trainings-Token-Set begrenzt ist.

Die Vorteile der Spezialisierung liegen in der Fähigkeit, die spezifische Sprache des E-Commerce zu erfassen, die sich von generischen Webtexten unterscheidet. E-Commerce-Sprache ist entitätsdicht, stark kompositorisch und oft in semi-strukturierten Fragmenten ausgedrückt. Das Ecom-niverse-Korpus wurde explizit entwickelt, um diesen Bereich abzudecken.

Praktische Implikationen ergeben sich unmittelbar für verschiedene Anwendungsfälle in der Produktion:

Katalogqualität: Verbesserte Token-Recovery bei Titeln und Beschreibungen deutet auf verbesserte Repräsentationen für Attributvervollständigung und -normalisierung hin.
Retrieval und Kandidatengenerierung: Eine höhere Spearman-Korrelation bei abgestufter Relevanz impliziert eine treuere Einbettungsgeometrie für Retrieval und Kandidatengenerierung, insbesondere bei der Unterscheidung von Ersatz- und Komplementärbeziehungen.
Long-Context-Fähigkeit: Die Fähigkeit, 8k Tokens zu verarbeiten, ist wichtig für Händlerseiten und mehrteilige Beschreibungen und reduziert den Bedarf an heuristischen Trunkierungsstrategien, die kritische Attribute verlieren könnten.

Fazit

RexBERT repräsentiert einen bedeutenden Fortschritt in der Entwicklung domänenspezifischer Encoder für den E-Commerce. Durch die Kombination eines umfangreichen, kuratierten Datensatzes (Ecom-niverse) mit einer modernen Encoder-Architektur und einem dreiphasigen Trainings-Curriculum, das allgemeines Vortraining, Kontexterweiterung und spezialisierte Domänenanpassung umfasst, erzielt RexBERT eine bemerkenswerte Leistung. Das Modell übertrifft Allzweck-Encoder oft trotz geringerer Parameterzahl und behält gleichzeitig eine starke Leistung bei allgemeinen Sprachverständnisaufgaben bei.

Das Projekt dient als Blaupause für den Aufbau domänenspezifischer Encoder aus offenen Daten und bietet eine transparente Methodik, die auf andere spezialisierte Domänen übertragen werden kann. Durch die Veröffentlichung der Modelle und der Trainingsmethodik wird der Fortschritt im Bereich des domänenspezifischen Repräsentationslernens gefördelt und effizientere NLP-Systeme für den E-Commerce ermöglicht. Für Unternehmen im B2B-Bereich, die auf präzise und effiziente Sprachverarbeitung im E-Commerce angewiesen sind, bietet RexBERT eine vielversprechende Lösung, um die Qualität von Such-, Empfehlungs- und Klassifikationssystemen signifikant zu steigern.

Bibliographie

- Bajaj, R., & Garg, A. (2026). RexBERT: Context Specialized Bidirectional Encoders for E-commerce. arXiv preprint arXiv:2602.04605. - Bajaj, R. (2025). RexBERT: Encoders for a brave new world of E-Commerce. HuggingFace Blog. - Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. Proceedings of NAACL. - Göker, H. (2025). Bi-directional Encoder Representations from Transformers Based for Sentiment Analysis from Consumer Reviews. Sakarya University Journal of Computer and Information Sciences, 8(3), 485-496. - Huang, X., Peng, H., Zou, D., Liu, Z., Li, J., Liu, K., Wu, J., Su, J., & Yu, P. S. (2024). CoSENT: Consistent Sentence Embedding via Similarity Ranking. IEEE/ACM Transactions on Audio, Speech and Language Processing, 32(9), 1–15. - Lu, Y., & Smith, K. (2025). Feeding LLM Annotations to BERT Classifiers at Your Own Risk. arXiv preprint arXiv:2504.15432. - Reddy, C. K., Màrquez, L., Valero, F., Rao, N., Zaragoza, H., Bandyopadhyay, S., Biswas, A., Xing, A., & Subbian, K. (2022). Shopping Queries Dataset: A Large-Scale ESCI Benchmark for Improving Product Search. arXiv preprint arXiv:2206.06588. - Sounack, T., Davis, J., Durieux, B., Chaffin, A., Pollard, T. J., Lehman, E., Johnson, A. E. W., McDermott, M., Naumann, T., & Lindvall, C. (2025). BioClinical ModernBERT: A State-of-the-Art Long-Context Encoder for Biomedical and Clinical NLP. arXiv preprint arXiv:2506.10896. - Warner, B., Chaffin, A., Clavié, B., Weller, O., Hallström, O., Taghadouini, S., Gallagher, A., Biswas, R., Ladhak, F., Aarsen, T., Cooper, N., Adams, G., Howard, J., & Poli, I. (2024). Smarter, Better, Faster, Longer: A Modern Bidirectional Encoder for Fast, Memory Efficient, and Long Context Finetuning and Inference. arXiv preprint arXiv:2412.13663. - Weller, O., Ricci, K., Marone, M., Chaffin, A., Lawrie, D., & Van Durme, B. (2025). Seq vs Seq: An Open Suite of Paired Encoders and Decoders. arXiv preprint arXiv:2507.11412. - Zhong, Z., & Chen, D. (2020). A Frustratingly Easy Approach for Joint Entity and Relation Extraction. arXiv preprint arXiv:2010.12812.