Innovatives Modell für virtuelles Playtesting von Brettspielen

Kategorien:

No items found.

Freigegeben:

January 26, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

MeepleLM: Ein Virtueller Playtester: Ein neues Modell namens MeepleLM wurde entwickelt, um subjektive Spielerfahrungen in Brettspielen zu simulieren und konstruktives Feedback zu generieren.
Überwindung von Herausforderungen: Das Modell adressiert zwei zentrale Probleme: die Ableitung latenter Spieldynamiken aus statischen Regeln und die Modellierung der subjektiven Heterogenität verschiedener Spielergruppen.
Datenbasis und MDA-Ansatz: MeepleLM nutzt einen Datensatz von 1.727 Regelwerken und 150.000 Rezensionen, ergänzt durch das Mechanics-Dynamics-Aesthetics (MDA)-Framework, um die kausale Verbindung zwischen Regeln und Spielerfahrung herzustellen.
Spieler-Personas: Fünf datengestützte Spieler-Personas wurden definiert, um die unterschiedlichen Präferenzen und Denkweisen verschiedener Spielertypen abzubilden.
Überlegene Leistung: Experimente zeigen, dass MeepleLM kommerzielle Modelle wie GPT-5.1 und Gemini3-Pro in der Ausrichtung an der Community, der Qualität der Kritik und dem praktischen Nutzen übertrifft.
Anwendungsbereiche: Das Modell dient als zuverlässiger virtueller Playtester für interaktive Systeme und fördert eine erfahrungsbewusste Mensch-KI-Kollaboration im Spieldesign.

Die rapide Entwicklung von Large Language Models (LLMs) hat in den letzten Jahren das Potenzial zur Transformation verschiedener Branchen aufgezeigt. Insbesondere im Bereich des Spieldesigns eröffnen sich neue Möglichkeiten, von der Unterstützung bei der Regelerstellung bis hin zur Generierung von Spielmechanismen. Eine aktuelle Forschungsarbeit stellt ein innovatives Modell namens MeepleLM vor, das darauf abzielt, eine entscheidende Lücke in der Mensch-KI-Kollaboration im Spieldesign zu schließen: die Fähigkeit, konstruktive Kritik auf der Grundlage vielfältiger, subjektiver Nutzererfahrungen zu liefern. Dieses Modell agiert als virtueller Playtester, der die Meinungen und Empfindungen unterschiedlicher Spielertypen simuliert.

Die Herausforderung der subjektiven Spielerfahrung

Brettspiele zeichnen sich durch eine inhärent emergente und subjektive Spielerfahrung aus. Die Qualität eines Spiels ergibt sich nicht allein aus den statischen Regeln, sondern aus der dynamischen Interaktion der Mechaniken, den Entscheidungen der Spieler und den daraus resultierenden emotionalen Reaktionen. Diese Komplexität stellt zwei zentrale Herausforderungen für die automatisierte Bewertung dar:

Ableitung latenter Dynamiken aus statischen Regeln: Regelwerke sind explizite Anweisungen, doch die tatsächliche Spielerfahrung entsteht erst, wenn diese Mechaniken in Echtzeit interagieren. LLMs fehlen in der Regel eine explizite Spiel-Engine, um diese dynamischen Prozesse zu simulieren. Es ist daher erforderlich, plausible Ausführungsverläufe aus den Regeln abzuleiten und empirisches Spielerfeedback zu nutzen, um kausale Verbindungen zwischen Mechaniken, Ergebnissen und Reaktionen herzustellen.
Modellierung subjektiver Gruppenpräferenzen: Spielerfahrungen sind nicht universell. Dieselbe Spielmechanik kann bei verschiedenen Spielergruppen widersprüchliche Reaktionen hervorrufen. Eine generische, "Einheits"-Kritik ist wenig hilfreich. Die Herausforderung besteht darin, diese subjektive Heterogenität zu modellieren, indem das Reasoning an spezifische Gruppenpräferenzen angepasst wird, um unterschiedliche Personas anstatt eines einzelnen "Standard"-Nutzers zu simulieren.

MeepleLM: Ein Spezialisiertes Modell für Virtuelles Playtesting

Um diesen Herausforderungen zu begegnen, wurde MeepleLM entwickelt. Das Modell basiert auf einem mehrstufigen Prozess der Datenerfassung, des Reasoning-Augmentings und des persona-konditionierten Instruction Tunings.

Datengrundlage und Aufbereitung

Die Grundlage für MeepleLM bildet ein umfangreicher Datensatz, der objektive Spielregelwerke mit subjektivem Spielerfeedback verknüpft. Die Erstellung dieses Datensatzes umfasste mehrere Schritte:

Spieleauswahl: Eine Sammlung von 1.727 Brettspielen wurde durch eine stratifizierte Stichprobenziehung von BoardGameGeek (BGG) kuratiert. Dies sichert eine umfassende Repräsentation hinsichtlich Marktpositionierung (Elite- vs. Long-Tail-Titel), kognitivem Spektrum (BGG-Gewichtung von 1.0 bis 5.0), zeitlichem Umfang (Klassiker vor 2015 bis Designs nach 2024) und mechanischer Heterogenität (192 einzigartige Mechaniken, 81 Themen).
Strukturierung der Regelwerke: Offizielle Regelwerke wurden in eine strukturierte Wissensbasis überführt. Dies erfolgte durch das Parsen von PDFs in hierarchisches Markdown, die Umstrukturierung in ein standardisiertes Format mittels Qwen3-235B und die anschließende Korrektur durch GPT-5.1 zur Sicherstellung der Genauigkeit und Konsistenz.
Filterung von Rezensionen: Ein Korpus von 1,8 Millionen Bewertungs-Kommentar-Paaren aus verschiedenen Online-Communities wurde auf 150.000 hochwertige Rezensionen gefiltert. Dieser Prozess umfasste eine harte Filterung von Rauschen, eine MDA-Bewertung (Mechanics-Dynamics-Aesthetics) zur Verknüpfung von Mechaniken mit dynamischen Interaktionen und ästhetischen Erfahrungen sowie eine Facettenidentifikation zur Erfassung verschiedener semantischer Themen.
Persona-Entdeckung: Um domänenspezifische kognitive Zuschreibungen zu modellieren, wurde eine "Cluster-then-Refine"-Pipeline implementiert. Rezensionen wurden in zusammengesetzte Embeddings umgewandelt und mittels K-Means-Clustering gruppiert. In einem Human-in-the-Loop-Prozess wurden repräsentative Stichproben von GPT-5.1 profiliert und von Domänenexperten zu fünf klar definierten Spieler-Personas verfeinert: Der System-Purist, Der Effizienz-Essentialist, Der Narrative Architekt, Der Soziale Schmierstoff und Der Nervenkitzel-Sucher. Anschließend wurde GPT-5.1 zur Annotation des gesamten Datensatzes mit Persona-Labels verwendet, wobei ein Mehrheitsentscheidungsmechanismus für Stabilität sorgte.

Methodik von MeepleLM

Die Aufgabe wird als Problem der bedingten Generierung formuliert: Angesichts eines Regelwerks ( $\mathcal{R}$ ) und einer Zielspieler-Persona ( $\mathcal{P}$ ) soll ein Feedback-Eintrag ( $\mathcal{Y}$ ), bestehend aus einer numerischen Bewertung und einer textuellen Rezension, generiert werden.

MDA-gesteuertes Reasoning: Um die semantische Lücke zwischen statischen Regeln und emergenter Spielerfahrung zu überbrücken, wird das MDA-Framework (Mechanics-Dynamics-Aesthetics) als kausale Inferenzkette für LLMs neu interpretiert. Eine latente Zwischensequenz ( $\mathcal{Z}_{MDA}$ ) verfolgt explizit den kausalen Pfad von Mechaniken ("Was") zu Dynamiken ("Wie") und schließlich zu Ästhetik ("Gefühl"). Dies zwingt das Modell, die Laufzeiterfahrung zu simulieren, bevor es die Kritik artikuliert.
Synthese der MDA-kognitiven Kette: Qwen3-235B fungiert als "Lehrer-Modell", um die latente Logik der MDA-Kette aus hochwertigen Rezensions-Regel-Paaren zu rekonstruieren.
Verifier-gesteuerte Filterung: GPT-5.1 dient als Verifizierer, der die Implikation zwischen synthetisiertem Reasoning und Ground-Truth-Bewertungen beurteilt. Inkonsistente oder halluzinierte Ketten werden entfernt und eine automatische Regenerierung ausgelöst.
Persona-konditioniertes Instruction Tuning: Das Qwen3-8B-Backbone wird feingetunt, um die gemeinsame Wahrscheinlichkeit der MDA-Reasoning-Kette und der finalen Kritik zu maximieren. Das vollständige semantische Profil der Persona wird in die Systemanweisung kodiert, um den Übergang von Dynamik zu Ästhetik zu modulieren.

Experimente und Analyse

MeepleLM wurde systematisch als virtueller Playtester anhand von drei Forschungsfragen evaluiert:

Makro-Ebene Ausrichtung an der Community (RQ1): Das Modell repliziert die Bewertungsverteilungen und Präferenzranglisten der Community präzise. MeepleLM zeigte konsistent die beste Leistung über alle Ausrichtungsmetriken hinweg und übertraf GPT-5.1 und Gemini3-Pro. Es demonstrierte eine überlegene Verteilungsgenauigkeit, indem es die hohe Varianz des menschlichen Konsenses korrekt wiedergibt und den Positivitätsbias anderer LLMs überwindet, die dazu neigen, Vorhersagen um sichere, hohe Werte zu clustern.
Mikro-Ebene Inhaltsgenauigkeit und Diversität (RQ2): Die generierten Rezensionen wahren die faktische Konsistenz mit den Regeln und weisen gleichzeitig den Inhaltsreichtum und die semantische Vielfalt realer Spieler auf. MeepleLM erreichte eine hohe faktische Genauigkeit und lieferte gleichzeitig eine überlegene lexikalische und perspektivische Diversität. Qualitativ erfasste MeepleLM authentisch die unterschiedlichen Stimmen jeder Persona, indem es nahtlos zwischen Community-Slang und technischer Kritik wechselte.
Praktischer Nutzen (RQ3): Die simulierten Rückmeldungen bieten umsetzbare Erkenntnisse für die Designoptimierung und die Entscheidungsunterstützung von Spielern. MeepleLM erreichte die höchste Rate bei der Meinungsrückgewinnung (Op-Rec), was seinen Nutzen für Designer bei der Vorhersage von Marktrückmeldungen bestätigt. In einer blinden A/B-Studie mit menschlichen Teilnehmern wurde MeepleLM gegenüber GPT-5.1 deutlich bevorzugt, insbesondere aufgrund seiner Authentizität und kritischen Ehrlichkeit bei der Identifizierung von Designmängeln.

Ablation und weitere Analysen

Ablationsstudien bestätigten den kritischen Beitrag jedes Moduls: Das Entfernen des Regelwerk-Kontextes führte zu einem Zusammenbruch der faktischen Genauigkeit, das Entfernen von Persona-Profilen verringerte die Ranking-Ausrichtung, und das Umgehen der MDA-Kette reduzierte die Meinungsrückgewinnung. Weitere Analysen zeigten die robuste Leistung von MeepleLM über verschiedene Zeiträume hinweg und insbesondere bei Personas mit hoher Varianz, was seine Fähigkeit demonstriert, soziale Dynamiken und subjektive "Vibes" zu erfassen.

Fazit

MeepleLM stellt einen Paradigmenwechsel für das automatisierte virtuelle Testen interaktiver Systeme dar. Durch die Überbrückung der Kluft zwischen statischen Regelwerken und subjektiven Spielerfahrungen, die Kuration eines hochwertigen Datensatzes von Regel-Kritik-Paaren, die Integration von MDA-basiertem Reasoning und die Destillation von datengestützten Spieler-Personas, macht das Modell Spieldynamiken explizit. Die Experimente belegen, dass MeepleLM die Leistung allgemeiner LLMs bei der Erfassung authentischer Community-Stimmungen und umsetzbarer Design-Erkenntnisse deutlich übertrifft. Dies beschleunigt die Design-Iteration und erleichtert die personalisierte Auswahl für Spieler, was den Weg für eine erfahrungsbewusste Mensch-KI-Kollaboration ebnet, die auf vielfältige Publikumspräferenzen abgestimmt ist.

Einschränkungen und zukünftige Forschungsrichtungen

Trotz des vielversprechenden Potenzials von MeepleLM gibt es zwei primäre Einschränkungen:

Multimodales Verständnis: Aktuell verarbeitet MeepleLM Spielregeln ausschließlich als Text. Brettspiele sind jedoch inhärent multimodale Erlebnisse, bei denen visuelle Hinweise wie Kartenkunst, Brett-Ikonografie und Komponentendesign eine entscheidende Rolle für Immersion und Benutzerfreundlichkeit spielen. Zukünftige Iterationen werden visuelle Encoder integrieren, um Spiel-Assets zu verarbeiten und eine ganzheitlichere Bewertung zu ermöglichen.
Granularität der Personas: Der aktuelle Ansatz basiert auf fünf aggregierten Personas, die breite Spieler-Archetypen erfassen, jedoch die einzigartigen Eigenheiten spezifischer Individuen übersehen können. Zukünftig soll von der Gruppen- auf die Individualebene modelliert werden, um eine granulare "virtuelle Spielergemeinschaft" zu schaffen, die präzise Geschmäcker und Verhaltensweisen realer Personen simulieren kann.

Ethik-Statement

Die Forschung hinter MeepleLM beachtet strenge ethische Richtlinien. Der Datensatz wurde aus öffentlich zugänglichen Online-Communities erstellt, wobei alle Benutzer-IDs und Rezensionskennungen anonymisiert wurden, um persönliche Daten zu schützen. Die Veröffentlichung beschränkt sich auf verarbeitete Versionen der Rezensionen und Metadaten, um die Verbreitung schädlicher Inhalte und Urheberrechtsverletzungen zu minimieren. Bei der menschlichen Evaluation wurde umfassende informierte Zustimmung eingeholt, Daten anonymisiert und sicher gespeichert, um Privatsphäre und Wohlbefinden der Teilnehmer zu gewährleisten.

Die Entwicklungen in diesem Bereich zeigen, wie KI-Technologien, insbesondere spezialisierte LLMs, das Potenzial haben, komplexe menschliche Interaktionen und subjektive Erfahrungen in spezifischen Domänen zu simulieren und damit neue Wege für Design und Entwicklung in der Wirtschaft zu eröffnen. Für B2B-Kunden, die an der Implementierung fortschrittlicher KI-Lösungen interessiert sind, bietet MeepleLM ein Beispiel dafür, wie maßgeschneiderte KI-Modelle durch die Berücksichtigung von Nuancen und Kontexten einen erheblichen Mehrwert schaffen können.

Bibliography - Benharrak et al. (2024). Karim Benharrak, Tim Zindulka, Florian Lehmann, Hendrik Heuer, and Daniel Buschek. Writer-defined ai personas for on-demand feedback generation. In Proceedings of the 2024 CHI Conference on Human Factors in Computing Systems, pages 1–18, 2024. - Chen et al. (2023). Yi Chen, Rui Wang, Haiyun Jiang, Shuming Shi, and Ruifeng Xu. Exploring the use of large language models for reference-free text quality evaluation: An empirical study. arXiv preprint arXiv:2304.00723, 2023. - Cheng et al. (2023). Myra Cheng, Tiziano Piccardi, and Diyi Yang. Compost: Characterizing and evaluating caricature in llm simulations. arXiv preprint arXiv:2310.11501, 2023. - Choi et al. (2023). Yoonseo Choi, Eun Jeong Kang, Min Kyung Lee, and Juho Kim. Creator-friendly algorithms: Behaviors, challenges, and design opportunities in algorithmic platforms. In Proceedings of the 2023 CHI Conference on Human Factors in Computing Systems, pages 1–22, 2023. - Choi et al. (2025). Yoonseo Choi, Eun Jeong Kang, Seulgi Choi, Min Kyung Lee, and Juho Kim. Proxona: Supporting creators’ sensemaking and ideation with llm-powered audience personas. In Proceedings of the 2025 CHI Conference on Human Factors in Computing Systems, pages 1–32, 2025. - Cooper (1999). Alan Cooper. The inmates are running the asylum. In Software-ergonomie’99: design von informationswelten, pages 17–17. Springer, 1999. - Fang et al. (2025). Cong Fang, Yujie Zhu, Le Fang, Yonghao Long, Huan Lin, Yangfan Cong, and Stephen Jia Wang. Generative ai-enhanced human-ai collaborative conceptual design: A systematic literature review. Design Studies, 97:101300, 2025. - Forlizzi and Battarbee (2004). Jodi Forlizzi and Katja Battarbee. Understanding experience in interactive systems. In Proceedings of the 5th conference on Designing interactive systems: processes, practices, methods, and techniques, pages 261–268, 2004. - Gao et al. (2025). Mingqi Gao, Xinyu Hu, Xunjian Yin, Jie Ruan, Xiao Pu, and Xiaojun Wan. Llm-based nlg evaluation: Current status and challenges. Computational Linguistics, pages 1–27, 2025. - Hansteen Izora and Teuscher (2025). Kaj Hansteen Izora and Christof Teuscher. Exploring the potential of large language models (llms) to simulate social group dynamics: A case study using the board game" secret hitler". Northeast Journal of Complex Systems (NEJCS), 7(2):5, 2025. - He et al. (2021). Pengcheng He, Jianfeng Gao, and Weizhu Chen. Debertav3: Improving deberta using electra-style pre-training with gradient-disentangled embedding sharing. arXiv preprint arXiv:2111.09543, 2021. - Hong et al. (2025). Jiale Hong, Hongqiu Wu, and Hai Zhao. Game development as human-llm interaction. In Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 4333–4354, 2025. - Hu et al. (2024). Chengpeng Hu, Yunlong Zhao, and Jialin Liu. Game generation via large language models. In 2024 IEEE Conference on Games (CoG), pages 1–4. IEEE, 2024. - Hu et al. (2022). Edward J Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, Weizhu Chen, et al. Lora: Low-rank adaptation of large language models. ICLR, 1(2):3, 2022. - Hunicke et al. (2004). Robin Hunicke, Marc LeBlanc, Robert Zubek, et al. Mda: A formal approach to game design and game research. In Proceedings of the AAAI Workshop on Challenges in Game AI, volume 4, page 1722. San Jose, CA, 2004. - Kendall (1938). Maurice G Kendall. A new measure of rank correlation. Biometrika, 30(1-2):81–93, 1938. - Lehrach et al. (2025). Wolfgang Lehrach, Daniel Hennes, Miguel Lazaro-Gredilla, Xinghua Lou, Carter Wendelken, Zun Li, Antoine Dedieu, Jordi Grau-Moya, Marc Lanctot, Atil Iscen, et al. Code world models for general game playing. arXiv preprint arXiv:2510.04542, 2025. - Li et al. (2025). Danrui Li, Sen Zhang, Samuel S Sohn, Kaidong Hu, Muhammad Usman, and Mubbasir Kapadia. Cardiverse: Harnessing llms for novel card game prototyping. In Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing, pages 29723–29750, 2025. - Li et al. (2016). Jiwei Li, Michel Galley, Chris Brockett, Jianfeng Gao, and William B Dolan. A diversity-promoting objective function for neural conversation models. In Proceedings of the 2016 conference of the North American chapter of the association for computational linguistics: human language technologies, pages 110–119, 2016. - Li et al. (2024). Zhen Li, Xiaohan Xu, Tao Shen, Can Xu, Jia-Chen Gu, Yuxuan Lai, Chongyang Tao, and Shuai Ma. Leveraging large language models for nlg evaluation: Advances and challenges. arXiv preprint arXiv:2401.07103, 2024. - Lin et al. (2025). Wenye Lin, Jonathan Roberts, Yunhan Yang, Samuel Albanie, Zongqing Lu, and Kai Han. Gamebot: Transparent assessment of llm reasoning in games. In Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 7656–7682, 2025. - Lindfors (2025). Joakim Lindfors. Leveraging generative ai to create themed assets for games: A study on narrative and 3d asset creation with ai, 2025. - Ma et al. (2025). Ling Ma, Mingyao Pan, Vince Siu, Xiaoyu Chang, Jussi Holopainen, Jixing Li, and Ray LC. Follow my logic: Generative ai workflows in designing for serious table-top games. In International Conference on Human-Computer Interaction, pages 153–172. Springer, 2025. - Ma et al. (2023). Renkai Ma, Xinning Gui, and Yubo Kou. Multi-platform content creation: the configuration of creator ecology through platform prioritization, content synchronization, and audience management. In Proceedings of the 2023 CHI Conference on Human Factors in Computing Systems, pages 1–19, 2023. - McGinn and Kotamraju (2008). Jennifer McGinn and Nalini Kotamraju. Data-driven persona development. In Proceedings of the SIGCHI conference on human factors in computing systems, pages 1521–1524, 2008. - Niu et al. (2025). Junbo Niu, Zheng Liu, Zhuangcheng Gu, Bin Wang, Linke Ouyang, Zhiyuan Zhao, Tao Chu, Tianyao He, Fan Wu, Qintong Zhang, Zhenjiang Jin, Guang Liang, Rui Zhang, Wenzheng Zhang, Yuan Qu, Zhifei Ren, Yuefeng Sun, Yuanhong Zheng, Dongsheng Ma, Zirui Tang, Boyu Niu, Ziyang Miao, Hejun Dong, Siyi Qian, Junyuan Zhang, Jingzhou Chen, Fangdong Wang, Xiaomeng Zhao, Liqun Wei, Wei Li, Shasha Wang, Ruiliang Xu, Yuanyuan Cao, Lu Chen, Qianqian Wu, Huaiyu Gu, Lindong Lu, Keming Wang, Dechen Lin, Guanlin Shen, Xuanhe Zhou, Linfeng Zhang, Yuhang Zang, Xiaoyi Dong, Jiaqi Wang, Bo Zhang, Lei Bai, Pei Chu, Weijia Li, Jiang Wu, Lijun Wu, Zhenxiang Li, Guangyu Wang, Zhongying Tu, Chao Xu, Kai Chen, Yu Qiao, Bowen Zhou, Dahua Lin, Wentao Zhang, and Conghui He. Mineru2.5: A decoupled vision-language model for efficient high-resolution document parsing, 2025. URL https://arxiv.org/abs/2509.22186. - Park et al. (2023). Joon Sung Park, Joseph O’Brien, Carrie Jun Cai, Meredith Ringel Morris, Percy Liang, and Michael S Bernstein. Generative agents: Interactive simulacra of human behavior. In Proceedings of the 36th annual acm symposium on user interface software and technology, pages 1–22, 2023. - Patrick and Khan (2025). Andrew Patrick and Md Abdullah Al Hafiz Khan. Gamegenesis: A multimodal ai revolution in board game design, 2025. - Rashkin et al. (2025). Hannah Rashkin, Elizabeth Clark, Fantine Huot, and Mirella Lapata. Help me write a story: Evaluating llms’ ability to generate writing feedback. In Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 25827–25847, 2025. - Rodríguez (2025). Carles Moya Rodríguez. Opportunities in the board game market: A strategic analysis through the blue ocean theory, 2025. - Russell et al. (2025). Jenna Russell, Marzena Karpinska, and Mohit Iyyer. People who frequently use chatgpt for writing tasks are accurate and robust detectors of ai-generated text. arXiv preprint arXiv:2501.15654, 2025. - Salminen et al. (2018). Joni Salminen, Bernard J Jansen, Jisun An, Haewoon Kwak, and Soon-gyo Jung. Are personas done? evaluating their usefulness in the age of digital analytics. Persona Studies, 4(2):47–65, 2018. - Salminen et al. (2020). Joni Salminen, Kathleen Guan, Soon-gyo Jung, Shammur A Chowdhury, and Bernard J Jansen. A literature review of quantitative persona creation. In Proceedings of the 2020 CHI conference on human factors in computing systems, pages 1–14, 2020. - Shin et al. (2024). Joongi Shin, Michael A Hedderich, Bartłomiej Jakub Rey, Andrés Lucero, and Antti Oulasvirta. Understanding human-ai workflows for generating personas. In Proceedings of the 2024 ACM Designing Interactive Systems Conference, pages 757–781, 2024. - Tanaka and Simo-Serra (2024). Tsunehiko Tanaka and Edgar Simo-Serra. Grammar-based game description generation using large language models. IEEE Transactions on Games, 2024. - Tang et al. (2025). Wenjie Tang, Yuan Zhou, Erqiang Xu, Keyan Cheng, Minne Li, and Liquan Xiao. Dsgbench: A diverse strategic game benchmark for evaluating llm-based agents in complex decision-making environments. arXiv preprint arXiv:2503.06047, 2025. - Taveekitworachai et al. (2024). Pittawat Taveekitworachai, Kantinan Plupattanakit, and Ruck Thawonmas. Assessing inherent biases following prompt compression of large language models for game story generation. In 2024 IEEE Conference on Games (CoG), pages 1–4. IEEE, 2024. - Todd et al. (2023). Graham Todd, Sam Earle, Muhammad Umair Nasir, Michael Cerny Green, and Julian Togelius. Level generation through large language models. In Proceedings of the 18th International Conference on the Foundations of Digital Games, pages 1–8, 2023. - Todd et al. (2024). Graham Todd, Alexander G Padula, Matthew Stephenson, Éric Piette, Dennis J Soemers, and Julian Togelius. Gavel: Generating games via evolution and language models. Advances in Neural Information Processing Systems, 37:110723–110745, 2024. - Villani et al. (2008). Cédric Villani et al. Optimal transport: old and new, volume 338. Springer, 2008. - Yang et al. (2025). An Yang, Anfeng Li, Baosong Yang, Beichen Zhang, Binyuan Hui, Bo Zheng, Bowen Yu, Chang Gao, Chengen Huang, Chenxu Lv, Chujie Zheng, Dayiheng Liu, Fan Zhou, Fei Huang, Feng Hu, Hao Ge, Haoran Wei, Huan Lin, Jialong Tang, Jian Yang, Jianhong Tu, Jianwei Zhang, Jianxin Yang, Jiaxi Yang, Jing Zhou, Jingren Zhou, Junyang Lin, Kai Dang, Keqin Bao, Kexin Yang, Le Yu, Lianghao Deng, Mei Li, Mingfeng Xue, Mingze Li, Pei Zhang, Peng Wang, Qin Zhu, Rui Men, Ruize Gao, Shixuan Liu, Shuang Luo, Tianhao Li, Tianyi Tang, Wenbiao Yin, Xingzhang Ren, Xinyu Wang, Xinyu Zhang, Xuancheng Ren, Yang Fan, Yang Su, Yichang Zhang, Yinger Zhang, Yu Wan, Yuqiong Liu, Zekun Wang, Zeyu Cui, Zhenru Zhang, Zhipeng Zhou, and Zihan Qiu. Qwen3 technical report. arXiv preprint arXiv:2505.09388, 2025. - Yang and Jin (2025). Dingyi Yang and Qin Jin. What matters in evaluating book-length stories? a systematic study of long story evaluation. In Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 16375–16398, 2025. - Yong and Mitchell (2023). Qing Ru Yong and Alex Mitchell. From playing the story to gaming the system: Repeat experiences of a large language model-based interactive story. In International Conference on Interactive Digital Storytelling, pages 395–409. Springer, 2023. - Yu et al. (2025). Pengfei Yu, Dongming Shen, Silin Meng, Jaewon Lee, Weisu Yin, Andrea Yaoyun Cui, Zhenlin Xu, Yi Zhu, Xingjian Shi, Mu Li, et al. Rpgbench: Evaluating large language models as role-playing game engines. arXiv preprint arXiv:2502.00595, 2025. - Zhang et al. (2025). Yanzhao Zhang, Mingxin Li, Dingkun Long, Xin Zhang, Huan Lin, Baosong Yang, Pengjun Xie, An Yang, Dayiheng Liu, Junyang Lin, et al. Qwen3 embedding: Advancing text embedding and reranking through foundation models. arXiv preprint arXiv:2506.05176, 2025. - Zheng et al. (2025). Mingzhe Zheng, Dingjie Song, Guanyu Zhou, Jun You, Jiahao Zhan, Xuran Ma, Xinyuan Song, Ser-Nam Lim, Qifeng Chen, and Harry Yang. Cml-bench: A framework for evaluating and enhancing llm-powered movie scripts generation. arXiv preprint arXiv:2510.06231, 2025. - Zheng et al. (2024). Yaowei Zheng, Richong Zhang, Junhao Zhang, Yanhan Ye, Zheyan Luo, Zhangchi Feng, and Yongqiang Ma. Llamafactory: Unified efficient fine-tuning of 100+ language models. In Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 3: System Demonstrations), Bangkok, Thailand, 2024. Association for Computational Linguistics. URL http://arxiv.org/abs/2403.13372.