Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
In der dynamischen Landschaft der Künstlichen Intelligenz und des Natural Language Processing (NLP) sind spezialisierte Modelle zunehmend gefragt, um den Anforderungen spezifischer Branchen gerecht zu werden. Eine aktuelle Entwicklung in diesem Bereich ist RexBERT, eine Familie von bidirektionalen Encodern, die gezielt für die Semantik des E-Commerce konzipiert wurden. Diese Modelle, die von Rahul Bajaj und Anuj Garg entwickelt wurden, versprechen eine verbesserte Leistung bei Aufgaben, die für den Online-Handel von entscheidender Bedeutung sind, wie etwa Retrieval, Klassifikation und Ranking.
Obwohl Encoder-only Transformer wie BERT in verschiedenen NLP-Anwendungen weit verbreitet sind, stoßen sie bei spezialisierten Domänen an ihre Grenzen. Allgemeine Modelle, die auf breiten Korpora trainiert wurden, erfassen oft nicht die subtilen Nuancen und spezifischen Terminologien, die in Branchen wie dem E-Commerce vorherrschen. Im E-Commerce ist die Qualität der Repräsentation direkt entscheidend für die Effektivität von Suchfunktionen, Empfehlungssystemen, Attributextraktion und Compliance-Routing. Generische Modelle können beispielsweise Schwierigkeiten haben, feine Unterschiede zwischen komplementären, Ersatz- oder irrelevanten Produkten zu erkennen.
RexBERT setzt hier an, indem es einen maßgeschneiderten Ansatz verfolgt. Es nutzt die architektonischen Fortschritte von Modellen wie ModernBERT, kombiniert diese jedoch mit einer gezielten Datenkuratierung und einem mehrphasigen Trainingsschema, um eine hohe Leistung in der E-Commerce-Domäne zu erzielen.
Ein zentraler Bestandteil des RexBERT-Projekts ist die Schaffung von Ecom-niverse, einem umfangreichen Korpus von über 350 Milliarden Tokens, der speziell aus verschiedenen Einzelhandels- und Shopping-Quellen kuratiert wurde. Dieser Datensatz wurde nicht einfach aus dem allgemeinen Web extrahiert, sondern durch eine modulare Pipeline, die E-Commerce-Inhalte aus Quellen wie FineFineWeb und anderen offenen Webressourcen isoliert und extrahiert. Die Zusammensetzung dieses Korpus deckt diverse Kategorien ab, darunter Mode, Beauty, Automotive und Unterhaltung, wobei Hobby- und Nachrichten-Domains die größten Anteile an gefilterten Daten liefern.
Die Kuration von Ecom-niverse erfolgte durch einen mehrstufigen Prozess:
Domain-Auswahl: Identifizierung von FineFineWeb-Domains mit hoher Überschneidung zu E-Commerce-Inhalten.
Sampling: Entnahme einer großen, vielfältigen Stichprobe aus jeder ausgewählten Domain.
LLM-basierte Labeling: Verwendung eines instruktionsoptimierten Modells (Phi-4) zur binären Relevanzbewertung von Inhalten (Relevant vs. Nicht Relevant).
Qualitätssicherung: Überwachung der Label-Qualität durch ein stärkeres Modell (Llama3-70B) und iterative Verfeinerung.
Skalierbare Filter: Training von FastText-Klassifikatoren pro Domain, um die LLM-Entscheidungsgrenzen zu approximieren und eine effiziente Bewertung großer Korpora zu ermöglichen.
Dieser sorgfältige Ansatz zur Datenkuratierung ist entscheidend, da er sicherstellt, dass die Modelle mit hochrelevanten und qualitativ hochwertigen In-Domain-Daten trainiert werden, was die Grundlage für ihre spezialisierte Leistung bildet.
Die Vortrainingsprozedur von RexBERT ist von ModernBERT inspiriert, wurde aber an die statistischen und semantischen Eigenschaften von E-Commerce-Texten angepasst. Dies beinhaltet Merkmale wie eine hohe Entitätsdichte, Attribut-Wert-Strukturen und domänenspezifische Terminologie. Das Training erfolgt in drei Hauptphasen:
In dieser ersten Phase wird das Modell auf einer vielfältigen Mischung von 1,7 Billionen Tokens trainiert, die kuratierte Webtexte, Bücher, Code, technische Papiere und mehrsprachige Inhalte umfassen. Kürzere Sequenzlängen (512 Tokens) beschleunigen die Konvergenz und stabilisieren die Optimierung. Ein hoher Maskierungsanteil (30 %) und der Einsatz von Dropout sowie moderater Temperatursampling sollen eine breite sprachliche Abdeckung gewährleisten und robuste Token-Repräsentationen sowie Aufmerksamkeitsmuster etablieren.
Aufbauend auf dem Checkpoint aus Phase 1 wird die maximale Sequenzlänge auf 8.192 Tokens erhöht. Das Modell wird für weitere 250 Milliarden Tokens trainiert, um lange Produktseiten, FAQs und verkettete Attributblöcke zu modellieren. Hierbei kommen Rotations-Positions-Embeddings (RoPE) mit NTK-basierter Skalierung und abwechselnde globale und lokale Aufmerksamkeits-Layer zum Einsatz, um die Verarbeitung langer Kontexte zu optimieren.
Die letzte Phase spezialisiert das Modell auf den Ecom-niverse-Korpus für etwa 350 Milliarden Tokens, während das allgemeine Wissen erhalten bleibt. Der Maskierungsanteil wird auf 10-15 % reduziert, und die Sampling-Gewichte werden allmählich angepasst, um E-Commerce-Daten stärker zu berücksichtigen. Dieser "Annealing"-Ansatz, der sich an BioClinical ModernBERT orientiert, verbessert die Domänenleistung, ohne dass ein "katastrophales Vergessen" des allgemeinen Wissens eintritt. Zusätzlich wird "Guided MLM" eingeführt, eine gezielte Maskierungsvariante, die informationsreiche Entitäten und Attribute priorisiert, um den Lerneffekt für semantisch relevante Inhalte zu verstärken.
RexBERT verwendet eine BERT-ähnliche Encoder-Architektur mit mehreren modernen Verbesserungen, die auf ModernBERT basieren. Dazu gehören:
Biaslose Layer und Pre-Normalisierung: Verbesserung der Trainingsstabilität.
Rotary Positional Embeddings (RoPE): Ermöglichen die Extrapolation auf lange Kontexte.
GeGLU-Aktivierungen: Bieten eine bessere Optimierung im Vergleich zu GELU.
Abwechselnde globale/lokale Aufmerksamkeit: Reduziert die quadratische Komplexität bei gleichzeitiger Beibehaltung des globalen Kontexts.
Unpadding und Flash Attention: Verbessern den Durchsatz durch Entfernen von Padding-Tokens und effizientere Aufmerksamkeitsberechnungen.
Die Modelle werden in verschiedenen Größen (von 17M bis 400M Parametern) trainiert, um unterschiedliche Latenz- und Genauigkeitsanforderungen in Produktionssystemen zu erfüllen. Für die Optimierung wird StableAdamW verwendet, eine Variante von AdamW, die die Stabilität verbessert und die Notwendigkeit separater Gradienten-Clippings eliminiert.
RexBERT wurde auf zwei Hauptaufgaben evaluiert, die aus dem Amazon ESCI-Datensatz abgeleitet wurden: Token-Klassifikation und semantische Ähnlichkeit. Zusätzlich wurde die Leistung auf dem GLUE-Benchmark für allgemeines Sprachverständnis bewertet.
Bei der Masked-Token-Recovery-Aufgabe, bei der Produktitel und -beschreibungen aus teilweisem Kontext rekonstruiert werden müssen, übertrifft RexBERT-base konsistent ModernBERT-base über alle Blockgrößen und Top-k-Einstellungen hinweg. Beispielsweise verbessert RexBERT-base die Top-1-Genauigkeit für Produkttitel bei 128 Tokens von 60,5 % auf 69,2 % und für Produktbeschreibungen von 67,8 % auf 73,1 %.
Bei der semantischen Ähnlichkeitsaufgabe, die die Fähigkeit der Modelle bewertet, abgestufte Relevanzbeziehungen zwischen Suchanfragen und Produkten zu erfassen, zeigt RexBERT ebenfalls eine überlegene Leistung. Die Modelle erzielen durchweg höhere Spearman-Korrelationen als Allzweck-Encoder vergleichbarer Größe, was eine bessere Ausrichtung an die E-Commerce-Relevanzsemantik anzeigt. Dies ist besonders wichtig für die Unterscheidung zwischen Ersatz- und Komplementärprodukten.
Trotz der Spezialisierung auf E-Commerce-Anwendungen erzielt RexBERT auch bei mehreren Aufgaben zum allgemeinen Sprachverständnis herausragende Ergebnisse. RexBERT-large erreicht beispielsweise eine wettbewerbsfähige Leistung bei der Paraphrasenerkennung, der Multi-Genre-Inferenz und Aufgaben zur semantischen Ähnlichkeit. Kleinere RexBERT-Modelle übertreffen sogar etablierte Modelle wie DistilBERT und ettin-17m in allen bewerteten Aufgaben. Dies deutet darauf hin, dass die domänenspezifische Spezialisierung von RexBERT nicht nur in der Ziel-Domäne exzelliert, sondern auch effektiv auf allgemeine NLU-Aufgaben übertragbar ist.
Die konsistenten Ergebnisse zeigen, dass im E-Commerce-Kontext, wo die Evaluierungsverteilung stark von E-Commerce-spezifischen Daten geprägt ist, die Qualität der Daten und des Trainings-Curriculums die reine Skalierung überwiegen. Die Leistung von RexBERT, die größere Allzweck-Encoder übertrifft, legt nahe, dass die Repräsentationsqualität in dieser Domäne weniger durch die Modellkapazität als vielmehr durch die Exposition gegenüber den richtigen Long-Tail-Entitäten, Attribut-Wert-Konstruktionen und dem gesamten Trainings-Token-Set begrenzt ist.
Die Vorteile der Spezialisierung liegen in der Fähigkeit, die spezifische Sprache des E-Commerce zu erfassen, die sich von generischen Webtexten unterscheidet. E-Commerce-Sprache ist entitätsdicht, stark kompositorisch und oft in semi-strukturierten Fragmenten ausgedrückt. Das Ecom-niverse-Korpus wurde explizit entwickelt, um diesen Bereich abzudecken.
Praktische Implikationen ergeben sich unmittelbar für verschiedene Anwendungsfälle in der Produktion:
Katalogqualität: Verbesserte Token-Recovery bei Titeln und Beschreibungen deutet auf verbesserte Repräsentationen für Attributvervollständigung und -normalisierung hin.
Retrieval und Kandidatengenerierung: Eine höhere Spearman-Korrelation bei abgestufter Relevanz impliziert eine treuere Einbettungsgeometrie für Retrieval und Kandidatengenerierung, insbesondere bei der Unterscheidung von Ersatz- und Komplementärbeziehungen.
Long-Context-Fähigkeit: Die Fähigkeit, 8k Tokens zu verarbeiten, ist wichtig für Händlerseiten und mehrteilige Beschreibungen und reduziert den Bedarf an heuristischen Trunkierungsstrategien, die kritische Attribute verlieren könnten.
RexBERT repräsentiert einen bedeutenden Fortschritt in der Entwicklung domänenspezifischer Encoder für den E-Commerce. Durch die Kombination eines umfangreichen, kuratierten Datensatzes (Ecom-niverse) mit einer modernen Encoder-Architektur und einem dreiphasigen Trainings-Curriculum, das allgemeines Vortraining, Kontexterweiterung und spezialisierte Domänenanpassung umfasst, erzielt RexBERT eine bemerkenswerte Leistung. Das Modell übertrifft Allzweck-Encoder oft trotz geringerer Parameterzahl und behält gleichzeitig eine starke Leistung bei allgemeinen Sprachverständnisaufgaben bei.
Das Projekt dient als Blaupause für den Aufbau domänenspezifischer Encoder aus offenen Daten und bietet eine transparente Methodik, die auf andere spezialisierte Domänen übertragen werden kann. Durch die Veröffentlichung der Modelle und der Trainingsmethodik wird der Fortschritt im Bereich des domänenspezifischen Repräsentationslernens gefördelt und effizientere NLP-Systeme für den E-Commerce ermöglicht. Für Unternehmen im B2B-Bereich, die auf präzise und effiziente Sprachverarbeitung im E-Commerce angewiesen sind, bietet RexBERT eine vielversprechende Lösung, um die Qualität von Such-, Empfehlungs- und Klassifikationssystemen signifikant zu steigern.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen