Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Landschaft der Künstlichen Intelligenz wird kontinuierlich durch Innovationen geprägt, die darauf abzielen, die Effizienz und Leistungsfähigkeit von KI-Systemen zu verbessern. Eine aktuelle Entwicklung in diesem Bereich ist die Veröffentlichung neuer Embedding-Modelle durch Perplexity AI. Diese Modelle, namentlich pplx-embed-v1 und pplx-embed-context-v1, sollen die Fähigkeit von Suchmaschinen, relevante Informationen zu identifizieren, signifikant optimieren und dabei den Speicherbedarf drastisch reduzieren. Als spezialisierter Journalist und Analyst für Mindverse beleuchten wir die technischen Details und die potenziellen Auswirkungen dieser Neuerung.
Perplexity AI, ein Unternehmen, das sich auf KI-gestützte Suchtechnologien spezialisiert hat, hat kürzlich zwei neue Text-Embedding-Modelle, pplx-embed-v1 und pplx-embed-context-v1, als Open Source verfügbar gemacht. Diese Modelle sind darauf ausgelegt, Suchanfragen und Dokumente in numerische Vektoren umzuwandeln. Dies ist ein entscheidender Schritt, um in KI-gestützten Suchmaschinen relevante Webinhalte vorab auszuwählen. Das Besondere an diesen Modellen ist ihre Fähigkeit, die Leistung führender Anbieter wie Google und Alibaba zu erreichen oder sogar zu übertreffen, während sie gleichzeitig einen Bruchteil der üblichen Speicherkosten verursachen.
Bevor ein Sprachmodell eine Suchanfrage beantworten kann, muss es die passenden Dokumente aus einer riesigen Menge von Webseiten herausfiltern. Embedding-Modelle übernehmen diese erste Filterstufe, indem sie Anfragen und Dokumente in numerische Vektoren übersetzen. Dadurch wird die semantische Ähnlichkeit quantifizierbar. Die Qualität dieser Embeddings hat direkten Einfluss darauf, welche Inhalte an nachgelagerte Ranking-Modelle und letztlich an das Sprachmodell zur Generierung der Antwort weitergeleitet werden.
Ein wesentlicher Fortschritt der neuen Perplexity-Modelle liegt in ihrer bidirektionalen Textverarbeitung. Die meisten führenden Embedding-Modelle basieren auf Sprachmodellen, die Texte nur von links nach rechts verarbeiten. Dies bedeutet, dass jedes Wort nur das sehen kann, was ihm vorausgeht. Während dies für die Textgenerierung funktioniert, stellt es ein Problem für das Verständnis der Bedeutung dar, da die Absicht eines Satzes oft von dem abhängt, was folgt.
Perplexity hat die vortrainierten Qwen3-Modelle von Alibaba, die ursprünglich nur von links nach rechts lasen, modifiziert, um in beide Richtungen zu lesen. Das Modell wird anschließend mit einer Füllmethodik trainiert, die dem BERT-Modell von Google ähnelt: Wörter werden in Textpassagen zufällig maskiert, und das Modell lernt, das Fehlende aus dem umgebenden Kontext in beide Richtungen vorherzusagen. Die Forscher bezeichnen diesen Ansatz als "Diffusion Pre-Training".
Das Training umfasste etwa 250 Milliarden Token in 30 Sprachen, wobei die Hälfte aus englischen Bildungswebsites des FineWebEdu-Datensatzes und die andere Hälfte aus 29 weiteren Sprachen des FineWeb2-Datensatzes stammte. Ablationsstudien zeigten, dass der bidirektionale Ansatz eine Verbesserung von etwa einem Prozentpunkt bei Retrieval-Aufgaben erzielte.
Ein weiterer praktischer Vorteil ist, dass pplx-embed keine Aufgabendeskriptionen benötigt, die an jede Eingabe angehängt werden müssen. Perplexity weist darauf hin, dass solche Präfixe die Suchqualität beeinträchtigen können, wenn sie zwischen Indexierungs- und Abfragezeitpunkt nicht konsistent sind.
Die Speicherung von Embedding-Vektoren für Milliarden von Webseiten ist kostenintensiv. Der Standardansatz verwendet Gleitkommazahlen mit 32 Bit (FP32). Perplexity trainiert seine Modelle von Anfang an darauf, 8-Bit-Integer (INT8) zu verwenden, wodurch der Speicherbedarf um das Vierfache reduziert wird, ohne Leistungsverluste hinnehmen zu müssen.
Eine noch kompaktere binäre Variante, die nur ein Bit pro Wert benötigt, verringert den Speicherbedarf sogar um das 32-fache. Beim 4B-Modell liegt der Qualitätsverlust bei unter 1,6 Prozentpunkten, da der größere 2.560-dimensionale Embedding-Vektor mehr Informationen speichert als die 1.024 Dimensionen des kleineren Modells, so Perplexity.
Auf dem MTEB-Retrieval-Benchmark (Multilingual, v2) erreichte pplx-embed-v1-4B einen nDCG@10-Wert von 69,66 Prozent. Dies entspricht dem Qwen3-Embedding-4B von Alibaba (69,60 Prozent) und übertrifft Googles gemini-embedding-001 (67,71 Prozent), während gleichzeitig erheblich weniger Speicher benötigt wird. Auf dem ConTEB-Benchmark für kontextuelles Retrieval erreichte pplx-embed-context-v1-4B 81,96 Prozent und übertraf damit Voyage's voyage-context-3 (79,45 Prozent) und Anthropic's kontextuelles Modell (72,4 Prozent).
Im BERGEN-Benchmark, der die End-to-End-RAG-Leistung (Retrieval-Augmented Generation) von der Dokumentensuche bis zur generierten Antwort misst, übertraf das kleinere pplx-embed-v1-0.6B das wesentlich größere Qwen3-embedding-4B in drei von fünf Aufgaben. Dies macht es zu einer attraktiven Option, wenn Latenz und Rechenkosten Priorität haben.
Perplexity weist darauf hin, dass öffentliche Benchmarks die Herausforderungen des realen Suchverkehrs nur unzureichend abbilden, da ungewöhnliche Anfragen, verrauschte Dokumente und Verteilungsverschiebungen weitgehend fehlen. Daher hat das Unternehmen zwei interne Benchmarks entwickelt, die bis zu 115.000 reale Suchanfragen gegen mehr als 30 Millionen Dokumente aus über einer Milliarde Websites verwenden.
Die Unterschiede zu den Wettbewerbern sind hier ausgeprägter. Im PPLXQuery2Query-Benchmark, der testet, ob ein Modell Anfragen mit derselben Bedeutung erkennt, fand pplx-embed-v1-4B 73,5 Prozent der relevanten Treffer in den Top-Ten-Ergebnissen, verglichen mit 67,9 Prozent für Qwen3-Embedding-4B. Das 0.6B-Modell erreichte 71,1 Prozent und übertraf damit deutlich Qwen3-Embedding-0.6B (55,1 Prozent) und BGE-M3 (61,8 Prozent). Im PPLXQuery2Doc-Test, der die Dokumentensuche über 30 Millionen Seiten hinweg bewertet, fand das 4B-Modell 91,7 Prozent der relevanten Dokumente in den Top 1.000 Ergebnissen, verglichen mit 88,6 Prozent für Qwen3.
Für Embedding-Modelle, die als erste Filterstufe fungieren, ist es laut Perplexity oberste Priorität, so viele relevante Dokumente wie möglich zu identifizieren. Alles, was in diesem ersten Durchlauf übersehen wird, kann von nachgeschalteten Ranking-Modellen nicht wiederhergestellt werden.
Alle vier Modelle sind unter der MIT-Lizenz auf Hugging Face verfügbar und funktionieren mit der Perplexity API sowie gängigen Inferenz-Frameworks wie Transformers, SentenceTransformers und ONNX. Das Unternehmen hat zudem einen technischen Bericht mit vollständigen Evaluationsergebnissen veröffentlicht. Diese Offenheit fördert die breite Akzeptanz und Weiterentwicklung der Modelle in der KI-Gemeinschaft.
Die Open-Source-Veröffentlichung der pplx-embed-Modelle von Perplexity AI stellt einen bedeutenden Schritt in der Entwicklung effizienter und leistungsstarker KI-Suchtechnologien dar. Durch die Kombination von bidirektionaler Textverarbeitung und fortschrittlicher Quantisierung ermöglichen diese Modelle eine präzisere und gleichzeitig ressourcenschonendere Informationsabfrage. Für Unternehmen und Entwickler im B2B-Bereich bieten diese Innovationen neue Möglichkeiten zur Optimierung von Retrieval-Augmented Generation (RAG)-Systemen und zur Reduzierung der Infrastrukturkosten, was die Entwicklung und den Einsatz von KI-Anwendungen weiter vorantreiben dürfte.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen