Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Entwicklung von KI-Systemen, insbesondere im Bereich des User-Representation-Learnings, steht vor der Herausforderung, ein Gleichgewicht zwischen robuster Universalität und präziser Aufgabenspezifität zu finden. Bestehende Ansätze generieren oft statische, aufgabenunabhängige Embeddings, die den unterschiedlichen Anforderungen nachgelagerter Szenarien nur schwer gerecht werden können. Zudem führen heterogene Daten aus verschiedenen Quellen zu Rauschen und Modalitätskonflikten, was die Qualität der Repräsentationen beeinträchtigt. Vor diesem Hintergrund wurde von Forschenden der Ant Group ein neuartiges Framework namens "Query as Anchor" (Q-Anchor) vorgestellt, das einen Paradigmenwechsel in der Benutzermodellierung von statischer Codierung zu dynamischer, abfragebewusster Synthese herbeiführt. Dieser Artikel beleuchtet die Kernaspekte, die Methodik und die experimentellen Ergebnisse dieses Ansatzes, der darauf abzielt, die Effizienz und Adaptivität von Benutzerrepräsentationen in industriellen Anwendungen zu verbessern.
Die effektive Modellierung von Benutzerrepräsentationen ist eine Grundlage für moderne industrielle Intelligenzsysteme, die personalisierte, datengesteuerte Entscheidungen in Bereichen wie Empfehlungssystemen, digitalem Marketing und Risikomanagement ermöglichen. Benutzer agieren jedoch in der Praxis in vielfältigen Geschäftsszenarien, die jeweils unterschiedliche Verhaltensmuster und Entscheidungsziele aufweisen. Dies erfordert Repräsentationen, die sowohl über Aufgaben hinweg übertragbar als auch an szenariospezifische Kontexte anpassbar sind.
Bestehende Methoden zur Benutzerrepräsentation weisen laut den Forschenden drei zentrale Herausforderungen auf:
Um diese Herausforderungen zu adressieren, schlagen die Forschenden ein einheitliches Framework zum Lernen von Benutzerrepräsentationen vor, das industrielles Pre-Training mit effizienter Szenario-Anpassung integriert. Der Kern dieses Ansatzes ist "Query as Anchor", ein abfragekonditionierter Mechanismus, der die Kodierung von Benutzerverhalten von szenariospezifischen Zielen entkoppelt. Das Framework basiert auf mehreren Schlüsselkomponenten:
Zur Verbesserung der Benutzer-Embedding-Leistung über verschiedene Aufgaben hinweg wurde das User Understanding (UserU) Pre-Training-Dataset entwickelt. Dieses Dataset integriert dynamisches, kontextbewusstes Benutzerverhalten mit Aufgabenanpassungsfähigkeit für reale Anwendungen. Es erweitert bestehende Ansätze zur Vorhersage zukünftigen Benutzerverhaltens durch die Hinzufügung synthetisierter Frage-Antwort-Paare, um ein tieferes Benutzerverständnis zu erfassen. UserU kombiniert zwei Hauptkomponenten:
Um die inhärente Sparsität multimodaler Verhaltenssignale mit den dichten semantischen Anforderungen von LLMs in Einklang zu bringen, wird eine hierarchische Kodierungsarchitektur vorgeschlagen. Diese Architektur destilliert Rohinteraktionen in einen mehrgranularitätigen Repräsentationsraum. Rohereignissequenzen jeder Modalität (z.B. Transaktionen, Mini-Programm-Interaktionen, Suchanfragen) werden zunächst in initiale Embeddings projiziert und dann durch modalitätsspezifische Adapter verfeinert. Diese ereignisbasierten Embeddings werden durch Mittelwertbildung zu einem zusammenfassenden Vektor aggregiert, der wiederum in ein vereinheitlichtes Modalitäts-Embedding umgewandelt wird. Eine globale Benutzer-Repräsentation wird schließlich durch die Konsolidierung aller modalitätsspezifischen Vektoren abgeleitet. Dieser hierarchische Aufbau ermöglicht es dem LLM, je nach Abfrage entweder feingranulare Ereignisse oder hochrangige Verhaltenszusammenfassungen zu berücksichtigen.
Aufbauend auf den hierarchischen Benutzerrepräsentationen wird eine Dual-Tower-Trainingsarchitektur vorgeschlagen. Der primäre "Anchor Tower" verarbeitet die hierarchischen Benutzer-Tokens und fügt die natürliche Sprachabfrage als semantischen Anker hinzu. Indem die Abfrage am Ende der Sequenz positioniert wird, agiert das LLM als abfragebewusster Aggregator, der relevante Merkmale aus dem latenten Raum der Benutzer-Tokens destilliert. Dies ermöglicht die Generierung dynamischer, szenarioadaptiver Embeddings. Gleichzeitig projiziert ein asymmetrischer "Semantic Tower" die Zielantwort in einen dichten Vektor, der als Ground Truth für die Synthese von Benutzerverhalten und die Intent-Modellierung dient. Beide Tower teilen sich die gleichen LLM-Parameter, um eine Abbildung in einen einheitlichen latenten Raum zu gewährleisten.
Das Training des Frameworks erfolgt durch eine
gemeinsame kontrastiv-generative Optimierung
, die diskriminative kontrastive Ausrichtung mit generativer Fundierung kombiniert. Dies führt zu Benutzer-Embeddings, die sowohl unterscheidbar als auch semantisch reich sind.Um die semantische Lücke zwischen allgemeinem Benutzerverständnis und spezialisierter Geschäftslogik zu überbrücken, wird ein cluster-basiertes Soft Prompt Tuning als Post-Training-Anpassung eingeführt. Während das LLM-Backbone und der hierarchische Benutzer-Encoder eingefroren bleiben, werden lernbare Prompt-Tokens eingeführt. Diese Tokens modulieren den latenten Raum der hierarchischen Embeddings, um sie besser an nachgelagerte klassenspezifische Logiken anzupasssen. Durch die Optimierung dieser Tokens und einer Reihe von Klassenprototypen wird eine diskriminative Clusterstruktur im latenten Raum erzwungen, was eine effiziente Szenariospezialisierung und latenzarme Inferenz ermöglicht.
Für die Anforderungen des industriellen Einsatzes nutzt Q-Anchor eine KV-Cache-Optimierung, die die Benutzerkodierung von der Aufgabenabfrage entkoppelt. Das hierarchische Benutzerprofil wird einmal kodiert, um einen gemeinsamen KV-Cache zu erzeugen, der als persistenter semantischer Präfix während der Inferenz fixiert bleibt. Bei mehreren nachgelagerten Abfragen werden diese sequenziell verarbeitet, wobei derselbe Cache wiederverwendet wird. Dies reduziert die inkrementelle Latenz pro Szenario erheblich und ermöglicht eine hohe Durchsatzleistung bei der Embedding-Generierung.
Die Evaluierung des Q-Anchor-Frameworks erfolgte auf zehn realen binären Klassifikationsaufgaben aus Alipays Produktionssystemen, die in die drei Domänen Benutzerengagement, Risiko und Marketing unterteilt sind. Als Backbone-LLM wurde Qwen2.5-0.5B-Instruct verwendet. Die Leistung wurde anhand von AUC (Area Under the ROC Curve) und KS (Kolmogorov-Smirnov) bewertet.
Das Q-Anchor (Prompt Tuned) erreichte die beste Leistung über alle zehn Benchmarks hinweg, mit einem durchschnittlichen AUC von 0,8225 und einem KS von 0,5267. Es übertraf damit die stärksten General-Purpose-Baselines deutlich. Diese Ergebnisse deuten darauf hin, dass die primäre Einschränkung bei der industriellen Benutzermodellierung nicht in der semantischen Kapazität, sondern in der Repräsentationsausrichtung liegt. Generische Text-Embeddings haben Schwierigkeiten, spärliche, symbolische, multimodale Verhaltensprotokolle zu verarbeiten. Q-Anchor hingegen, vorab trainiert auf UserU mit hierarchischer Verhaltenskodierung, bildet heterogene Ereignisse auf abfragerelevante Signale ab, ohne eine massive Parametrisierung zu erfordern.
Die Fähigkeit von Q-Anchor, über drei heterogene Domänen hinweg (Engagement, Risiko und Marketing) zu generalisieren, ohne aufgabenspezifische Architekturen zu benötigen, validiert das Framework als "ein Modell für viele" Paradigma. Insbesondere im Marketingbereich waren die Leistungssteigerungen signifikant, was darauf hindeutet, dass das Modell sich nicht nur über Domänen hinweg übertragen lässt, sondern sich auch an domänenspezifische Entscheidungsgrenzen anpasst, bei denen subtile Präferenzsignale eine Rolle spielen.
Die Forschenden untersuchten die Skalierbarkeit des Q-Anchor (Base) unter verschiedenen Pre-Training-Datengrößen und Modellgrößen. Es zeigte sich, dass die Leistung von Q-Anchor (Base) stärker mit der Menge der Pre-Training-Daten als mit der Anzahl der Modellparameter skaliert. Eine Erhöhung der Daten führte zu konsistenten Leistungssteigerungen, während eine Skalierung der Modellgröße nicht-monoton verlief und größere Modelle (1.5B/3B) keine konsistenten Gewinne brachten und manchmal sogar eine Regression zeigten. Dies wird durch die Analyse der Gradienten während des Trainings erklärt, die zeigt, dass größere Modelle unter festen Datenbudgets zu flacheren Optimierungslandschaften neigen.
Das Soft Prompt Tuning erwies sich als äußerst effizient. Die Leistung stieg schnell mit bis zu 6 Prompt-Tokens und erreichte dann eine Sättigung. Ähnlich führten mehr Trainingsschritte zu stetigen Verbesserungen. Dies unterstreicht die Effizienz des Prompt Tunings, das mit einem geringen Prompt-Budget und moderater Optimierung die größten Gewinne erzielt.
Eine Ablationsstudie von Q-Anchor (Base) ergab, dass das Entfernen von Benutzer- oder Modalitäts-Tokens die durchschnittliche AUC leicht senkte, wobei der größte Rückgang beim Entfernen beider auftrat. Dies deutet darauf hin, dass explizite Strukturinformationen dem Modell helfen, Evidenz der richtigen Quelle zuzuordnen. Das Entfernen des kontrastiven Lernens führte zum größten Leistungsabfall, was die Bedeutung der kontrastiven Ausrichtung für die diskriminative Modellierung unterstreicht. Das Pre-Training erwies sich als essentielle Grundlage; ohne diese Phase brach die Leistung des Modells systematisch ein, was bestätigt, dass Pre-Training ein robustes Verhaltensprior liefert, das für die Generalisierung unerlässlich ist.
Q-Anchor-Embeddings wurden in zwei groß angelegten Alipay A/B-Tests über zwei Wochen evaluiert. Im Szenario der "Interactive Voice Response (IVR) Cash-Reserve Outreach" führte die Repräsentations-bewusste Zeitplanung zu einer Steigerung der Abrufquote um 12,5 % und des durchschnittlichen ausstehenden Saldos pro Benutzer um 5,3 %. Im Szenario der "Credit Delinquency Risk Identification" verbesserte sich der geschäftskritische KS-Wert um 1,96 %. Diese Ergebnisse bestätigen die praktische Wirksamkeit und Effizienz des Frameworks im realen Einsatz.
Der Einsatz im Alipay-Maßstab wird durch eine inkrementelle Update-Pipeline unterstützt, die die schwere Benutzerhistorienkodierung von der leichten Szenarioabfrage entkoppelt. Der KV-Cache-Mechanismus ermöglicht es, den Benutzerpräfix einmal zu kodieren und über mehrere Szenarien hinweg wiederzuverwenden, was den inkrementellen Aufwand pro Szenario minimiert.
Das "Query as Anchor"-Framework stellt einen bedeutenden Fortschritt im Bereich des industriellen User-Representation-Learnings dar. Durch die Kombination eines umfassenden Pre-Training-Datasets (UserU), einer hierarchischen Encoder-Architektur und eines abfragekonditionierten Alignments, zusammen mit effizientem Soft Prompt Tuning und KV-Cache-Optimierung, überwindet Q-Anchor die Beschränkungen statischer Benutzerrepräsentationen. Die überlegene Leistung in Offline-Benchmarks und die Validierung durch Online A/B-Tests unterstreichen das Potenzial dieses Frameworks, interpretierbare, szenarioadaptive, kostengünstige und übertragbare industrielle Benutzerrepräsentationen zu liefern. Dies ermöglicht eine verbesserte Personalisierung und Entscheidungsfindung in komplexen Geschäftsumgebungen.
Alle Experimente wurden unter Einhaltung der Daten-Governance-, Datenschutz- und Sicherheitsrichtlinien von Alipay durchgeführt. Verschlüsselte Daten und Embeddings, strenge Zugangskontrollen und Audit-Protokolle sollen unbefugten Zugriff oder Verknüpfungen verhindern. Das Q-Anchor-Embedding soll ein verantwortungsvolles Lernen von Benutzerrepräsentationen und die Entwicklung industrieller Systeme fördern.
- Babakhin, Y., Osmulski, R., Ak, R., Moreira, G., Xu, M., Schifferer, B., Liu, B., & Oldridge, E. (2025). Llama-Embed-Nemotron-8B: A Universal Text Embedding Model for Multilingual and Cross-Lingual Tasks. arXiv preprint arXiv:2511.07025. - BehnamGhader, P., Adlakha, V., Mosbach, M., Bahdanau, D., Chapados, N., & Reddy, S. (n.d.). LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders. In First Conference on Language Modeling. - Berger, V. W., & Zhou, Y. (2014). Kolmogorov–smirnov test: Overview. Wiley statsref: Statistics reference online. - Bradley, A. P. (1997). The use of the area under the ROC curve in the evaluation of machine learning algorithms. Pattern recognition, 30(7), 1145–1159. - Chai, Z., Chen, Z., Li, C., Xiao, R., Li, H., Wu, J., Chen, J., & Tang, H. (2022). User-aware multi-interest learning for candidate matching in recommenders. In Proceedings of the 45th international ACM SIGIR conference on research and development in information retrieval (pp. 1326–1335). - Chen, H., Wang, L., Yang, N., Zhu, Y., Zhao, Z., Wei, F., & Dou, Z. (2025). Little giants: Synthesizing high-quality embedding data at scale. In Proceedings of the 2025 Conference of the Nations of the Americas Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 1: Long Papers) (pp. 1392–1411). - Dou, B., Wang, B., Zhu, Y., Lin, X., Xu, Y., Huang, X., Chen, Y., Liu, Y., Han, S., Liu, Y., et al. (2025). Transferable and Forecastable User Targeting Foundation Model. In Companion Proceedings of the ACM on Web Conference 2025 (pp. 181–190). - Fu, C., Wu, W., Zhang, X., Hu, J., Wang, J., & Zhou, J. (2023). Robust user behavioral sequence representation via multi-scale stochastic distribution prediction. In Proceedings of the 32nd ACM International Conference on Information and Knowledge Management (pp. 4567–4573). - Gao, T., Yao, X., & Chen, D. (2021). SimCSE: Simple Contrastive Learning of Sentence Embeddings. In Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing (pp. 6894–6910). - He, Y., Liu, X., Zhang, A., Ma, Y., & Chua, T. S. (2025). Llm2rec: Large language models are powerful embedding models for sequential recommendation. In Proceedings of the 31st ACM SIGKDD Conference on Knowledge Discovery and Data Mining V. 2 (pp. 896–907). - Hu, E. J., Wallis, P., Allen-Zhu, Z., Li, Y., Wang, S., Wang, L., Chen, W., et al. (n.d.). LoRA: Low-Rank Adaptation of Large Language Models. In International Conference on Learning Representations. - Hu, J., Xia, W., Zhang, X., Fu, C., Wu, W., Huan, Z., Li, A., Tang, Z., & Zhou, J. (2024). Enhancing sequential recommendation via llm-based semantic embedding learning. In Companion Proceedings of the ACM Web Conference 2024 (pp. 103–111). - Hu, X., Shan, Z., Zhao, X., Sun, Z., Liu, Z., Li, D., Ye, S., Wei, X., Chen, Q., Hu, B., et al. (2025). Kalm-embedding: Superior training data brings a stronger embedding model. arXiv preprint arXiv:2501.01028. - Jiang, T., Huang, S., Luan, Z., Wang, D., & Zhuang, F. (2024). Scaling sentence embeddings with large language models. In Findings of the association for computational linguistics: EMNLP 2024 (pp. 3182–3196). - Li, C., Xie, Y., Yu, C., Hu, B., Li, Z., Shu, G., Qie, X., & Niu, D. (2023a). One for all, all for one: Learning and transferring user embeddings for cross-domain recommendation. In Proceedings of the sixteenth ACM international conference on web search and data mining (pp. 366–374). - Li, S., Tang, Y., Liu, R., Chen, S.-Z., & Chen, X. (2025). Conan-embedding-v2: Training an llm from scratch for text embeddings. In Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing (pp. 15011–15027). - Li, Z., Zhang, X., Zhang, Y., Long, D., Xie, P., & Zhang, M. (2023b). Towards general text embeddings with multi-stage contrastive learning. arXiv preprint arXiv:2308.03281. - Lin, G., Gao, C., Li, Y., Zheng, Y., Li, Z., Jin, D., & Li, Y. (2022). Dual contrastive network for sequential recommendation. In Proceedings of the 45th international ACM SIGIR conference on research and development in information retrieval (pp. 2686–2691). - Liu, X., Ji, K., Fu, Y., Tam, W., Du, Z., Yang, Z., & Tang, J. (2022). P-tuning: Prompt tuning can be comparable to fine-tuning across scales and tasks. In Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers) (pp. 61–68). - Ning, L., Liu, L., Wu, J., Wu, N., Berlowitz, D., Prakash, S., Green, B., O’Banion, S., & Xie, J. (2025). User-llm: Efficient llm contextualization with user embeddings. In Companion Proceedings of the ACM on Web Conference 2025 (pp. 1219–1223). - Nogueira, R., & Cho, K. (2019). Passage Re-ranking with BERT. arXiv preprint arXiv:1901.04085. - Oord, A. van den, Li, Y., & Vinyals, O. (2018). Representation learning with contrastive predictive coding. arXiv preprint arXiv:1807.03748. - Peng, L., Zhang, Y., Wang, Z., Srinivasa, J., Liu, G., Wang, Z., & Shang, J. (2024). Answer is All You Need: Instruction-following Text Embedding via Answering the Question. In Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) (pp. 459–477). - Shin, K., Kwak, H., Kim, K.-M., Kim, M., Park, Y.-J., Jeong, J., & Jung, S. (2021). One4all user representation for recommender systems in e-commerce. arXiv preprint arXiv:2106.00573. - Sun, F., Liu, J., Wu, J., Pei, C., Lin, X., Ou, W., & Jiang, P. (2019). BERT4Rec: Sequential recommendation with bidirectional encoder representations from transformer. In Proceedings of the 28th ACM international conference on information and knowledge management (pp. 1441–1450). - Tang, Y., & Yang, Y. (2024). Do we need domain-specific embedding models? An empirical investigation. arXiv preprint arXiv:2409.18511. - Team, Q., et al. (2024). Qwen2 technical report. arXiv preprint arXiv:2407.10671, 2, 3. - Xiong, S., Zhao, Y., Zhang, J., Mengxiang, L., He, Z., Li, X., & Song, S. (2024). Dual prompt tuning based contrastive learning for hierarchical text classification. In Findings of the association for computational linguistics ACL 2024 (pp. 12146–12158). - Yuan, J., Cui, Z., Wang, H., Gao, Y., Zhou, Y., & Naseem, U. (2025). Kardia-R1: Unleashing LLMs to Reason toward Understanding and Empathy for Emotional Support via Rubric-as-Judge Reinforcement Learning. arXiv preprint arXiv:2512.01282. - Zhang, B., Liu, Z., Cherry, C., & Firat, O. (n.d.). When Scaling Meets LLM Finetuning: The Effect of Data, Model and Finetuning Method. In The Twelfth International Conference on Learning Representations. - Zhang, W., Li, D., Liang, C., Zhou, F., Zhang, Z., Wang, X., Li, R., Zhou, Y., Huang, Y., Liang, D., et al. (2024). Scaling user modeling: Large-scale online user representations for ads personalization in meta. In Companion Proceedings of the ACM Web Conference 2024 (pp. 47–55). - Zhang, Y., Li, M., Long, D., Zhang, X., Lin, H., Yang, B., Xie, P., Yang, A., Liu, D., Lin, J., et al. (2025). Qwen3 Embedding: Advancing Text Embedding and Reranking Through Foundation Models. arXiv preprint arXiv:2506.05176. - Zhao, Y., Xu, M., Chen, H., Chen, Y., Cai, Y., Islam, R., Wang, Y., & Derr, T. (2024). Can one embedding fit all? a multi-interest learning paradigm towards improving user interest diversity fairness. In Proceedings of the ACM web conference 2024 (pp. 1237–1248).
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen