Das Wichtigste in Kürze
- Die Qualität von Präferenzdaten ist entscheidend für die Ausrichtung großer Sprachmodelle (LLMs) an menschlichen Werten.
- Das AIR-Framework zerlegt Präferenzdatensätze in drei Kernkomponenten: Annotationen, Anweisungen und Antwortpaare.
- Vereinfachte Annotation durch generative Bewertung, die Auswahl von Anweisungen mit geringer Varianz und optimierte Antwortpaare sind zentrale Optimierungsprinzipien.
- Diese Prinzipien führen zu einer signifikanten Leistungssteigerung bei der LLM-Ausrichtung.
- Die Forschung betont einen komponentenbewussten Ansatz zur Datensatzgestaltung gegenüber einer reinen Skalierung.
Die Entwicklung von Large Language Models (LLMs) hat in den letzten Jahren enorme Fortschritte gemacht. Ein entscheidender Faktor für ihre Nützlichkeit und Akzeptanz ist die Fähigkeit, sich an menschliche Präferenzen und Werte anzupassen. Dieser Prozess, bekannt als "Alignment", stützt sich maßgeblich auf hochwertige Präferenzdatensätze. Eine systematische Analyse dieser Datensätze ist daher von großer Bedeutung, um die Effektivität der LLM-Ausrichtung zu optimieren.
Die Bedeutung von Präferenzdaten für LLM-Alignment
Die Ausrichtung großer Sprachmodelle an menschlichen Präferenzen ist ein Eckpfeiler der modernen LLM-Entwicklung. Methoden wie Reinforcement Learning from Human Feedback (RLHF) und Direct Preference Optimization (DPO) haben sich als effektiv erwiesen, um Modelle für Aufgaben wie mathematisches Denken, Befolgung von Anweisungen oder allgemeine Benutzerfreundlichkeit zu optimieren. Der Erfolg dieser Techniken hängt jedoch von der Verfügbarkeit und Qualität der zugrunde liegenden Präferenzdatensätze ab. Bisherige Ansätze zur Erstellung dieser Datensätze tendierten dazu, die verschiedenen Komponenten zu vermischen, was eine systematische Optimierung erschwerte.
Das AIR-Framework: Eine komponentenweise Analyse
Zerlegung von Präferenzdatensätzen
Das vorgeschlagene AIR-Framework (Annotations, Instructions, Response Pairs) bietet einen systematischen Ansatz zur Analyse und Optimierung von Präferenzdatensätzen. Es zerlegt die Datensätze in drei Kernkomponenten:
- Annotationen: Dies betrifft die Art und Weise, wie Bewertungen (Scores) den Antworten zugewiesen werden.
- Anweisungen (Instructions): Hier geht es um die Auswahl und Gestaltung der Prompts oder Aufgaben, die den LLMs gestellt werden.
- Antwortpaare (Response Pairs): Diese Komponente befasst sich mit der Konstruktion von Paaren aus bevorzugten und weniger bevorzugten Antworten.
Durch die isolierte Betrachtung und systematische Variation dieser Komponenten ermöglicht das AIR-Framework ein tiefgreifendes Verständnis ihrer individuellen Auswirkungen auf die Alignment-Leistung. Ziel ist es, allgemeingültige Prinzipien für die Gestaltung von Präferenzdatensätzen zu identifizieren und umsetzbare Erkenntnisse für die Praxis zu liefern, die Qualität, Kosten und Skalierbarkeit berücksichtigen.
Empirisch validierte Prinzipien
Umfassende Experimente mit dem AIR-Framework haben drei empirisch validierte Prinzipien für die Optimierung von Präferenzdatensätzen identifiziert:
1. Vereinfachung der Annotation durch generative Bewertung
Die Forschung zeigt, dass eine vereinfachte Annotationsstrategie mit generativen Belohnungsmodellen (Generative RMs) überlegen ist. Anstatt auf komplexe paarweise Vergleiche oder detaillierte Richtlinien zu setzen, erweist sich die punktweise Bewertung einzelner Antworten mittels Greedy Decoding als effektiver. Dieser Ansatz priorisiert eine ganzheitliche Qualitätsbewertung gegenüber der Einhaltung von Checklisten und führt zu einer durchschnittlichen Leistungssteigerung von +1.4 gegenüber klassifikatorbasierten RMs. Die Ergebnisse legen nahe, dass minimalistische Prompts, die das inhärente Urteilsvermögen der Annotatoren nutzen, besser mit realen Präferenzsignalen übereinstimmen als komplexe Protokolle.
2. Priorisierung von Anweisungen mit geringer Varianz
Die Qualität der Anweisungen ist entscheidend für das Präferenzlernen. Das AIR-Framework schlägt vor, Anweisungen mit geringer Varianz in den Bewertungen verschiedener LLMs zu priorisieren. Solche Anweisungen weisen auf fein abgestufte Qualitätsunterschiede in den Antworten hin, die für das Alignment von Bedeutung sind. Experimente zeigen, dass Anweisungen mit geringer Varianz die Leistung um durchschnittlich +2.2 gegenüber Methoden verbessern, die lediglich auf hochwertige Anweisungen abzielen, die von LLMs als "gut" eingestuft werden. Multi-Turn-Kontexte bieten nur marginale Vorteile für spezifische Chat-Fähigkeiten, aber keine breite Verbesserung.
3. Optimierung von Antwortpaaren für Qualität und Diversität
Die Konstruktion von Antwortpaaren erfordert ein Gleichgewicht zwischen drei Zielen: Klarheit des Signals, Qualität der Antworten und Policy Alignment. Das AIR-Framework empfiehlt die Kuratierung von Paaren mit:
- Moderaten Score-Margen (Δ=2 oder 3): Dies sorgt für klare Präferenzsignale, ohne das Lernziel zu übervereinfachen. Moderate Margen führen zu einer durchschnittlichen Leistungssteigerung von +1.29/+5.42 im Vergleich zu niedrigen/hohen Margen.
- Hohen absoluten Scores (≥8): Paare, bei denen beide Antworten eine hohe Qualität aufweisen, bieten klarere Lernsignale und führen zu einer signifikanten Leistungssteigerung von +9.35 im Vergleich zu Paaren mit niedrigen Scores.
- Hybridem Mixing (On-Policy und Off-Policy): Eine ausgewogene Mischung aus Antworten des Basismodells (On-Policy) und externen Modellen (Off-Policy) maximiert das kontrastive Lernen und verhindert ein Überanpassen an statische Datensätze. Eine mittlere Mischrate (Mid-Mix) übertrifft reine On-Policy- oder Off-Policy-Ansätze um durchschnittlich +1.38 bis +2.56.
Besonders die Analyse des On/Off-Policy-Mixings zeigt, dass eine zu starke Homogenität der Daten, insbesondere wenn On-Policy-Daten ausschließlich als bevorzugte oder abgelehnte Antworten verwendet werden, zu einem katastrophalen Kollaps des Alignments führen kann. Dies unterstreicht die Notwendigkeit von Diversität in den Trainingsdaten.
Kumulative Auswirkungen und Robustheit
Die schrittweise Integration dieser Prinzipien in eine DPO-Pipeline (Direct Preference Optimization) führt zu einem kumulativen Leistungszuwachs von durchschnittlich +5.3 über alle Benchmarks hinweg, selbst bei der Verwendung von nur 14.000 hochqualitativen Paaren. Dieser additive Effekt bestätigt, dass jede AIR-Komponente unabhängig zur Alignment-Leistung beiträgt und durch Synergien weitere Gewinne erzielt werden.
Die Robustheit der Erkenntnisse wurde durch Cross-Verifikation mit alternativen Annotatormodellen und Datensätzen bestätigt. Die Ergebnisse blieben konsistent, was darauf hindeutet, dass die gewonnenen Erkenntnisse intrinsische Dynamiken der Datensatzgestaltung widerspiegeln und nicht auf spezifische Implementierungsdetails zurückzuführen sind.
Fazit für B2B-Entscheider
Für Unternehmen, die in die Entwicklung und Anwendung von LLMs investieren, bietet das AIR-Framework einen klaren Fahrplan zur Optimierung der Datensatzqualität für das Modell-Alignment. Anstatt sich ausschließlich auf die Quantität der Daten zu konzentrieren, ist ein strategischer, komponentenbewusster Ansatz entscheidend. Die Implementierung von:
- Vereinfachten, generativen Annotationsprozessen,
- Gezielter Auswahl von Anweisungen mit geringer Bewertungs-Varianz,
- Sorgfältiger Kuratierung von Antwortpaaren mit moderaten Margen, hoher Qualität und diversen On/Off-Policy-Mischungen
kann die Effektivität des LLM-Alignments signifikant steigern. Dies führt nicht nur zu leistungsfähigeren und zuverlässigeren Modellen, sondern ermöglicht auch eine effizientere Nutzung von Ressourcen bei der Datensatzentwicklung. Die Zukunft des LLM-Alignments liegt in einer datenzentrierten Innovation, die auf interpretierbaren und reproduzierbaren Prinzipien basiert.
Bibliographie
- Achiam et al. (2023) Josh Achiam, Steven Adler, Sandhini Agarwal, Lama Ahmad, Ilge Akkaya, Florencia Leoni Aleman, Diogo Almeida, Janko Altenschmidt, Sam Altman, Shyamal Anadkat, et al. Gpt-4 technical report. *arXiv preprint arXiv:2303.08774*, 2023.
- Amini et al. (2024) Afra Amini, Tim Vieira, and Ryan Cotterell. Direct preference optimization with an offset. *arXiv preprint arXiv:2402.10571*, 2024.
- Bai et al. (2022) Yuntao Bai, Andy Jones, Kamal Ndousse, Amanda Askell, Anna Chen, Nova DasSarma, Dawn Drain, Stanislav Fort, Deep Ganguli, Tom Henighan, et al. Training a helpful and harmless assistant with reinforcement learning from human feedback. *arXiv preprint arXiv:2204.05862*, 2022.
- Bradley & Terry (1952) Ralph Allan Bradley and Milton E. Terry. Rank analysis of incomplete block designs: I. the method of paired comparisons. *Biometrika*, 39(3/4):324–345, 1952. ISSN 00063444, 14643510. URL [http://www.jstor.org/stable/2334029].
- Christiano et al. (2017) Paul F Christiano, Jan Leike, Tom Brown, Miljan Martic, Shane Legg, and Dario Amodei. Deep reinforcement learning from human preferences. *Advances in neural information processing systems*, 30, 2017.
- Cui et al. (2023) Ganqu Cui, Lifan Yuan, Ning Ding, Guanming Yao, Bingxiang He, Wei Zhu, Yuan Ni, Guotong Xie, Ruobing Xie, Yankai Lin, et al. Ultrafeedback: Boosting language models with scaled ai feedback. *arXiv preprint arXiv:2310.01377*, 2023.
- Dubey et al. (2024) Abhimanyu Dubey, Abhinav Jauhri, Abhinav Pandey, Abhishek Kadian, Ahmad Al-Dahle, Aiesha Letman, Akhil Mathur, Alan Schelten, Amy Yang, Angela Fan, et al. The llama 3 herd of models. *arXiv preprint arXiv:2407.21783*, 2024.
- Dubois et al. (2024) Yann Dubois, Balázs Galambosi, Percy Liang, and Tatsunori B Hashimoto. Length-controlled alpacaeval: A simple way to debias automatic evaluators. *arXiv preprint arXiv:2404.04475*, 2024.
- Gu et al. (2024) Jiawei Gu, Xuhui Jiang, Zhichao Shi, Hexiang Tan, Xuehao Zhai, Chengjin Xu, Wei Li, Yinghan Shen, Shengjie Ma, Honghao Liu, et al. A survey on llm-as-a-judge. *arXiv preprint arXiv:2411.15594*, 2024.
- He et al. (2025) Bingxiang He, Wenbin Zhang, Jiaxi Song, Cheng Qian, Zixuan Fu, Bowen Sun, Ning Ding, Haiwen Hong, Longtao Huang, Hui Xue, Ganqu Cui, Wanxiang Che, Zhiyuan Liu, Maosong Sun. AIR: A Systematic Analysis of Annotations, Instructions, and Response Pairs in Preference Dataset. *arXiv preprint arXiv:2504.03612*, 2025.
- Hu et al. (2024) Jian Hu, Xibin Wu, Zilin Zhu, Xianyu, Weixun Wang, Dehao Zhang, and Yu Cao. Openrlhf: An easy-to-use, scalable and high-performance rlhf framework. *arXiv preprint arXiv:2405.11143*, 2024.
- Ivison et al. (2024) Hamish Ivison, Yizhong Wang, Jiacheng Liu, Zeqiu Wu, Valentina Pyatkin, Nathan Lambert, Noah A Smith, Yejin Choi, and Hannaneh Hajishirzi. Unpacking dpo and ppo: Disentangling best practices for learning from preference feedback. *arXiv preprint arXiv:2406.09279*, 2024.
- Khaki et al. (2024) Saeed Khaki, JinJin Li, Lan Ma, Liu Yang, and Prathap Ramachandra. Rs-dpo: A hybrid rejection sampling and direct preference optimization method for alignment of large language models. *arXiv preprint arXiv:2402.10038*, 2024.
- Kim et al. (2024) Joongwon Kim, Anirudh Goyal, Aston Zhang, Bo Xiong, Rui Hou, Melanie Kambadur, Dhruv Mahajan, Hannaneh Hajishirzi, and Liang Tan. A systematic examination of preference learning through the lens of instruction-following. *arXiv preprint arXiv:2412.15282*, 2024.
- Lambert et al. (2024a) Nathan Lambert, Jacob Morrison, Valentina Pyatkin, Shengyi Huang, Hamish Ivison, Faeze Brahman, Lester James V. Miranda, Alisa Liu, Nouha Dziri, Shane Lyu, Yuling Gu, Saumya Malik, Victoria Graf, Jena D. Hwang, Jiangjiang Yang, Ronan Le Bras, Oyvind Tafjord, Chris Wilhelm, Luca Soldaini, Noah A. Smith, Yizhong Wang, Pradeep Dasigi, and Hannaneh Hajishirzi. Tülu 3: Pushing frontiers in open language model post-training. 2024a.
- Lambert et al. (2024b) Nathan Lambert, Valentina Pyatkin, Jacob Morrison, LJ Miranda, Bill Yuchen Lin, Khyathi Chandu, Nouha Dziri, Sachin Kumar, Tom Zick, Yejin Choi, et al. Rewardbench: Evaluating reward models for language modeling. *arXiv preprint arXiv:2403.13787*, 2024b.
- Li et al. (2024a) Ming Li, Yong Zhang, Zhitao Li, Jiuhai Chen, Lichang Chen, Ning Cheng, Jianzong Wang, Tianyi Zhou, and Jing Xiao. From quantity to quality: Boosting LLM performance with self-guided data selection for instruction tuning. In Kevin Duh, Helena Gomez, and Steven Bethard (eds.), *Proceedings of the 2024 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 1: Long Papers)*, pp. 7602–7635, Mexico City, Mexico, June 2024a. Association for Computational Linguistics. doi:10.18653/v1/2024.naacl-long.421. URL [https://aclanthology.org/2024.naacl-long.421/].
- Li et al. (2024b) Tianle Li, Wei-Lin Chiang, Evan Frick, Lisa Dunlap, Tianhao Wu, Banghua Zhu, Joseph E Gonzalez, and Ion Stoica. From crowdsourced data to high-quality benchmarks: Arena-hard and benchbuilder pipeline. *arXiv preprint arXiv:2406.11939*, 2024b.
- Lin et al. (2024) Bill Yuchen Lin, Yuntian Deng, Khyathi Chandu, Faeze Brahman, Abhilasha Ravichander, Valentina Pyatkin, Nouha Dziri, Ronan Le Bras, and Yejin Choi. Wildbench: Benchmarking llms with challenging tasks from real users in the wild. *arXiv preprint arXiv:2406.04770*, 2024.
- Lu et al. (2023) Keming Lu, Hongyi Yuan, Zheng Yuan, Runji Lin, Junyang Lin, Chuanqi Tan, Chang Zhou, and Jingren Zhou. # instag: Instruction tagging for analyzing supervised fine-tuning of large language models. *arXiv preprint arXiv:2308.07074*, 2023.
- Ouyang et al. (2022) Long Ouyang, Jeffrey Wu, Xu Jiang, Diogo Almeida, Carroll Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, et al. Training language models to follow instructions with human feedback. *Advances in neural information processing systems*, 35:27730–27744, 2022.
- Qwen et al. (2025) Qwen, :, An Yang, Baosong Yang, Beichen Zhang, Binyuan Hui, Bo Zheng, Bowen Yu, Chengyuan Li, Dayiheng Liu, Fei Huang, Haoran Wei, Huan Lin, Jian Yang, Jianhong Tu, Jianwei Zhang, Jianxin Yang, Jiaxi Yang, Jingren Zhou, Junyang Lin, Kai Dang, Keming Lu, Keqin Bao, Kexin Yang, Le Yu, Mei Li, Mingfeng Xue, Pei Zhang, Qin Zhu, Rui Men, Runji Lin, Tianhao Li, Tianyi Tang, Tingyu Xia, Xingzhang Ren, Xuancheng Ren, Yang Fan, Yang Su, Yichang Zhang, Yu Wan, Yuqiong Liu, Zeyu Cui, Zhenru Zhang, and Zihan Qiu. Qwen2.5 technical report, 2025. URL [https://arxiv.org/abs/2412.15115].
- Rafailov et al. (2023) Rafael Rafailov, Archit Sharma, Eric Mitchell, Christopher D Manning, Stefano Ermon, and Chelsea Finn. Direct preference optimization: Your language model is secretly a reward model. *Advances in Neural Information Processing Systems*, 36:53728–53741, 2023.
- Schulman et al. (2017) John Schulman, Filip Wolski, Prafulla Dhariwal, Alec Radford, and Oleg Klimov. Proximal policy optimization algorithms. *arXiv preprint arXiv:1707.06347*, 2017.
- Shao et al. (2024) Zhihong Shao, Peiyi Wang, Qihao Zhu, Runxin Xu, Junxiao Song, Xiao Bi, Haowei Zhang, Mingchuan Zhang, YK Li, Y Wu, et al. Deepseekmath: Pushing the limits of mathematical reasoning in open language models. *arXiv preprint arXiv:2402.03300*, 2024.
- Shen et al. (2024) Judy Hanwen Shen, Archit Sharma, Jun Qin. Towards Data-Centric RLHF: Simple Metrics for Preference Dataset Comparison. *arXiv preprint arXiv:2409.09603*, 2024.
- Shen et al. (2025) Yunyi Shen, Hao Sun, Jean-Francois Ton. Active Reward Modeling: Adaptive Preference Labeling for Large Language Model Alignment. *ICML 2025 poster*, 2025.
- Stiennon et al. (2020) Nisan Stiennon, Long Ouyang, Jeffrey Wu, Daniel Ziegler, Ryan Lowe, Chelsea Voss, Alec Radford, Dario Amodei, and Paul F Christiano. Learning to summarize with human feedback. *Advances in neural information processing systems*, 33:3008–3021, 2020.
- Team et al. (2023) Gemini Team, Rohan Anil, Sebastian Borgeaud, Jean-Baptiste Alayrac, Jiahui Yu, Radu Soricut, Johan Schalkwyk, Andrew M Dai, Anja Hauth, Katie Millican, et al. Gemini: a family of highly capable multimodal models. *arXiv preprint arXiv:2312.11805*, 2023.
- Wang et al. (2024) Zhilin Wang, Alexander Bukharin, Olivier Delalleau, Daniel Egert, Gerald Shen, Jiaqi Zeng, Oleksii Kuchaiev, and Yi Dong. Helpsteer2-preference: Complementing ratings with preferences. *arXiv preprint arXiv:2410.01257*, 2024.
- Wang et al. (2025) Zhilin Wang, Jiaqi Zeng, Olivier Delalleau, Hoo-Chang Shin, Felipe Soares, Alexander Bukharin, Ellie Evans, Yi Dong, Oleksii Kuchaiev. HelpSteer3-Preference: Open Human-Annotated Preference Data across Diverse Tasks and Languages. *arXiv preprint arXiv:2505.11475*, 2025.
- White et al. (2024) Colin White, Samuel Dooley, Manley Roberts, Arka Pal, Ben Feuer, Siddhartha Jain, Ravid Shwartz-Ziv, Neel Jain, Khalid Saifullah, Siddartha Naidu, et al. Livebench: A challenging, contamination-free llm benchmark. *arXiv preprint arXiv:2406.19314*, 2024.
- Wu et al. (2024) Junkang Wu, Yuexiang Xie, Zhengyi Yang, Jiancan Wu, Jinyang Gao, Bolin Ding, Xiang Wang, and Xiangnan He. β-dpo: Direct preference optimization with dynamic β. *Advances in Neural Information Processing Systems*, 37:129944–129966, 2024.
- Xu et al. (2024) Zhangchen Xu, Fengqing Jiang, Luyao Niu, Yuntian Deng, Radha Poovendran, Yejin Choi, and Bill Yuchen Lin. Magpie: Alignment data synthesis from scratch by prompting aligned llms with nothing. *arXiv preprint arXiv:2406.08464*, 2024.
- Yang et al. (2024) An Yang, Baosong Yang, Binyuan Hui, Bo Zheng, Bowen Yu, Chang Zhou, Chengpeng Li, Chengyuan Li, Dayiheng Liu, Fei Huang, Guanting Dong, Haoran Wei, Huan Lin, Jialong Tang, Jialin Wang, Jian Yang, Jianhong Tu, Jianwei Zhang, Jianxin Ma, Jianxin Yang, Jin Xu, Jingren Zhou, Jinze Bai, Jinzheng He, Junyang Lin, Kai Dang, Keming Lu, Keqin Chen, Kexin Yang, Mei Li, Mingfeng Xue, Na Ni, Pei Zhang, Peng Wang, Ru Peng, Rui Men, Ruize Gao, Runji Lin, Shijie Wang, Shuai Bai, Sinan Tan, Tianhang Zhu, Tianhao Li, Tianyu Liu, Wenbin Ge, Xiaodong Deng, Xiaohuan Zhou, Xingzhang Ren, Xinyu Zhang, Xipin Wei, Xuancheng Ren, Xuejing Liu, Yang Fan, Yang Yao, Yichang Zhang, Yu Wan, Yunfei Chu, Yuqiong Liu, Zeyu Cui, Zhenru Zhang, and Zhihao Fan. Qwen2 technical report, 2024. URL [https://arxiv.org/abs/2407.10671].
- Yasunaga et al. (2024) Michihiro Yasunaga, Leonid Shamis, Chunting Zhou, Andrew Cohen, Jason Weston, Luke Zettlemoyer, and Marjan Ghazvininejad. Alma: Alignment with minimal annotation. *arXiv preprint arXiv:2412.04305*, 2024.
- Yu et al. (2025) Ping Yu, Weizhe Yuan, Olga Golovneva, Tianhao Wu, Sainbayar Sukhbaatar, Jason Weston, and Jing Xu. Rip: Better models by survival of the fittest prompts. *arXiv preprint arXiv:2501.18578*, 2025.
- Yuan et al. (2024) Lifan Yuan, Ganqu Cui, Hanbin Wang, Ning Ding, Xingyao Wang, Jia Deng, Boji Shan, Huimin Chen, Ruobing Xie, Yankai Lin, et al. Advancing llm reasoning generalists with preference trees. *arXiv preprint arXiv:2404.02078*, 2024.
- Zhao et al. (2024) Wenting Zhao, Xiang Ren, Jack Hessel, Claire Cardie, Yejin Choi, and Yuntian Deng. Wildchat: 1m chatgpt interaction logs in the wild. *arXiv preprint arXiv:2405.01470*, 2024.
- Zheng et al. (2023a) Chujie Zheng, Hao Zhou, Fandong Meng, Jie Zhou, and Minlie Huang. Large language models are not robust multiple choice selectors. *arXiv preprint arXiv:2309.03882*, 2023a.
- Zheng et al. (2023b) Lianmin Zheng, Wei-Lin Chiang, Ying Sheng, Siyuan Zhuang, Zhanghao Wu, Yonghao Zhuang, Zi Lin, Zhuohan Li, Dacheng Li, Eric Xing, et al. Judging llm-as-a-judge with mt-bench and chatbot arena. *Advances in Neural Information Processing Systems*, 36:46595–46623, 2023b.
- Zhou et al. (2023) Chunting Zhou, Pengfei Liu, Puxin Xu, Srinivasan Iyer, Jiao Sun, Yuning Mao, Xuezhe Ma, Avia Efrat, Ping Yu, Lili Yu, et al. Lima: Less is more for alignment. *Advances in Neural Information Processing Systems*, 36:55006–55021, 2023.
- Ziegler et al. (2019) Daniel M Ziegler, Nisan Stiennon, Jeffrey Wu, Tom B Brown, Alec Radford, Dario Amodei, Paul Christiano, and Geoffrey Irving. Fine-tuning language models from human preferences. *arXiv preprint arXiv:1909.08593*, 2019.