Große Sprachmodelle (LLMs) haben die Verarbeitung natürlicher Sprache revolutioniert und ermöglichen beeindruckende Leistungen in verschiedenen Aufgaben wie Textgenerierung, Übersetzung und Fragebeantwortung. Die Anpassung dieser Modelle an spezifische Anwendungen erfolgt häufig durch Feinabstimmung, bei der die Gewichte des Modells mit neuen Daten angepasst werden. Dies erfordert jedoch in der Regel große Mengen an beschrifteten Daten, die oft knapp oder teuer sind.
Eine vielversprechende Alternative zur Feinabstimmung ist das In-Context Learning (ICL). Bei diesem Ansatz werden dem Modell während der Inferenz, also der Anwendung des Modells, Beispiele für die jeweilige Aufgabe direkt im Prompt, also der Eingabe für das Modell, bereitgestellt. Das Modell lernt aus diesen Beispielen, ohne dass seine Gewichte angepasst werden müssen. Dies ermöglicht eine schnelle und flexible Anpassung an neue Aufgaben, insbesondere wenn nur wenige Trainingsdaten verfügbar sind.
Studien haben gezeigt, dass ICL mit der Feinabstimmung von LLMs konkurrieren kann, insbesondere bei begrenzter Datenverfügbarkeit. Insbesondere bei einfachen Aufgaben, die mit wenigen Beispielen im Prompt gelöst werden können, erzielen beide Ansätze vergleichbare Ergebnisse. Bei komplexeren Aufgaben, die beispielsweise mehrstufige Konversationen oder Schlussfolgerungen aus längeren Texten erfordern, zeigt die Feinabstimmung jedoch weiterhin eine bessere Leistung. Dies liegt wahrscheinlich daran, dass ICL-Modelle dazu neigen, sich zu sehr auf den Stil einzelner Beispiele zu konzentrieren und Schwierigkeiten haben, auf komplexere Eingaben zu reagieren.
Die Wahl zwischen ICL und Feinabstimmung hängt von verschiedenen Faktoren ab, darunter die verfügbaren Ressourcen, die Datenmenge, die Komplexität der Aufgabe und die spezifischen Anwendungsanforderungen.
ICL bietet folgende Vorteile:
Feinabstimmung bietet folgende Vorteile:
Unabhängig davon, ob ICL oder Feinabstimmung verwendet wird, spielt die Qualität der Trainingsdaten eine entscheidende Rolle für die Leistung des Modells. Studien haben gezeigt, dass die Auswahl geeigneter Beispiele für ICL-Prompts die Leistung des Modells erheblich verbessern kann. Ebenso profitiert die Feinabstimmung von umfangreichen und hochwertigen Datensätzen.
In-Context Learning hat sich als vielversprechende Alternative zur Feinabstimmung von LLMs erwiesen, insbesondere bei Datenknappheit. Während die Feinabstimmung bei komplexeren Aufgaben überlegen bleibt, bietet ICL eine schnelle und flexible Möglichkeit, LLMs an spezifische Anwendungen anzupassen, ohne dass große Mengen an beschrifteten Daten erforderlich sind. Die Forschung im Bereich ICL schreitet schnell voran, und es ist zu erwarten, dass ICL in Zukunft eine noch wichtigere Rolle bei der Anpassung von LLMs spielen wird.
Zhao, H., Andriushchenko, M., Croce, F., Flammarion, N. (2024). Is In-Context Learning Sufficient for Instruction Following in LLMs?. arXiv preprint arXiv:2405.19874v1.
Coda-Forno, J., Binz, M., Akata, Z., Botvinick, M., Wang, J. X., & Schulz, E. (2023). Meta-in-context learning in large language models. In NeurIPS 2023.
Teknium. (2023). OpenHermes: A Open-source Toolkit for Measuring and Optimizing Prompt Model Capabilities.
Xu, J., Longpre, S., Zhang, S., Roller, S., Auli, M., & Weston, J. (2024). Evol-instruct: In-context instruction learning with evolutionary prompts.
Li, Y., Wang, L., Li, S., Wang, Y., Cao, Y., Bensch, F., ... & Tu, Z. (2023). AlpacaEval: Towards Holistic Evaluation of Instruction-Following Language Models.
Zheng, L., Mann, B., Kaplan, D., Hernandez, D., Dalvi, B., Richardson, J., ... & Bowman, S. R. (2023). Judging LLM-as-a-judge with MT-Bench and ChatEval. arXiv preprint arXiv:2306.05685.
Touvron, H., Lavril, T., Izacard, G., Martinet, X., Lachaux, M. A., Lacroix, T., ... & Lample, G. (2023). Llama 2: Open foundation and fine-tuned chat models. arXiv preprint arXiv:2307.09288.
OpenAI. (2023). GPT-4 Technical Report.
Jiang, Q., Li, Y., Du, W., Shazeer, N., Wang, Y., Chu, W., ... & Chen, D. (2023). Mistral 7B: A Detailed Technical Report.
Zhou, C., Schärli, N., Hou, L., Guu, K., Zhou, D., Jurafsky, D., & Liang, P. (2023). Least-to-Most Prompting Enables Complex Reasoning in Large Language Models.
Agarwal, A., Dziri, N., Cotterell, R., & Reitter, D. (2024). Systematic Generalization with Many-shot Prompts for Language Models. Transactions of the Association for Computational Linguistics, 12, 1-21.
Bertsch, A., Aggarwal, V., Zhou, C., & Liang, P. (2024). Decomposing the Sources of Generalization in Large Language Models. arXiv preprint arXiv:2405.12227.
Min, S., Lewis, P., Lyu, H., Holtzman, A., & Hajishirzi, H. (2022). Metaicl: Learning to learn in context. In Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (pp. 3631-3645).
Chung, H. W., Hou, L., Longpre, S., Zoph, B., Anil, R., Thakur, R., ... & Dean, J. (2022). Scaling instruction-finetuned language models.
Rafailov, R., Sharma, A., Mitchell, E., Ermon, S., & Manning, C. D. (2023). Direct preference optimization: Your language model is secretly a reward model.
Ethayarajh, K., Askell, A., & Ainslie, J. (2024). What Makes a Good Instruction? An Analysis of Instruction Learning for Large Language Models.
Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C. L., Mishkin, P., ... & Lowe, R. (2022). Training language models to follow instructions with human feedback. In Advances in Neural Information Processing Systems (Vol. 35, pp. 27730-27744).
Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., ... & Amodei, D. (2020). Language models are few-shot learners. In Advances in neural information processing systems (Vol. 33, pp. 1877-1901).
Lin, B. Y., Liu, H., Zhou, C., & Liang, P. (2024). Urial: Aligning Base LLMs with Instructions by Prompting. arXiv preprint arXiv:2405.04841