Neue Standards zur Bewertung der Effizienz von Agent Skills in KI-Modellen

Kategorien:

No items found.

Freigegeben:

February 18, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

SkillsBench ist ein neuer Benchmark zur Bewertung der Effizienz von "Agent Skills" in Large Language Model (LLM)-basierten Agenten.
"Agent Skills" sind strukturierte Wissenspakete, die LLM-Agenten während der Inferenzzeit erweitern.
Der Benchmark umfasst 84 Aufgaben in 11 Domänen, die unter drei Bedingungen getestet werden: ohne Skills, mit kuratierten Skills und mit selbstgenerierten Skills.
Kuratierte Skills verbessern die Erfolgsquote im Durchschnitt um 16,2 Prozentpunkte, wobei die Wirkung je nach Domäne stark variiert.
Selbstgenerierte Skills zeigen im Durchschnitt keinen Nutzen, was darauf hindeutet, dass Modelle prozedurales Wissen, von dem sie profitieren könnten, nicht zuverlässig selbst erstellen können.
Fokussierte Skills mit 2–3 Modulen sind effektiver als umfassende Dokumentationen.
Kleinere Modelle können mit geeigneten Skills die Leistung größerer Modelle ohne Skills erreichen.

Die rapide Entwicklung von Large Language Models (LLMs) hat zu autonomen Agenten geführt, die in der Lage sind, komplexe, mehrstufige Aufgaben in realen Umgebungen auszuführen. Diese Agenten, die oft in Kommandozeilen-Tools wie Claude Code, Gemini CLI und Codex CLI integriert sind, ermöglichen es Entwicklern, moderne Modelle als assistierende Werkzeuge in Terminalumgebungen zu nutzen. Ein zentrales Problem bleibt jedoch bestehen: Während Basismodelle breite Fähigkeiten bieten, mangelt es ihnen an dem spezifischen prozeduralen Wissen, das für domänenspezifische Arbeitsabläufe erforderlich ist. Das Feintuning dieser Modelle ist oft kostspielig und kann ihre Generalisierungsfähigkeit beeinträchtigen.

Als Lösung für diese Herausforderung haben sich "Agent Skills" etabliert. Ein Skill ist ein strukturiertes Paket, das Anweisungen, Code-Vorlagen, Ressourcen und Verifizierungslogik umfasst. Diese erweitern das Verhalten eines Agenten zur Inferenzzeit, ohne dass das Modell selbst modifiziert werden muss. Skills kodieren prozedurales Wissen, wie Standardarbeitsanweisungen, Domänenkonventionen und aufgabenspezifische Heuristiken, die das Agentenverhalten leiten. Dieser modulare Ansatz, der sich an etablierten Informatik-Paradigmen orientiert – Basismodelle als CPUs, Agenten-Harnesses als Betriebssysteme und Skills als Anwendungen – hat zu einem schnellen Wachstum von Skill-Ökosystemen geführt. Tausende von benutzergenerierten Skills sind in Bereichen wie Softwareentwicklung, Datenanalyse und Unternehmensabläufen verfügbar.

Trotz dieser Verbreitung fehlte es bislang an einem standardisierten Benchmark, der systematisch evaluiert, wann und wie Skills die Agentenleistung verbessern, welche Inhalte zu Leistungssteigerungen führen und welche Designprinzipien effektive von ineffektiven Skills unterscheiden. Diese Lücke hat praktische Konsequenzen: Anwender können keine fundierten Entscheidungen über die Einführung von Skills treffen, und Forscher entbehren einer empirischen Grundlage für Designprinzipien.

SkillsBench: Ein neuer Standard für die Skill-Evaluierung

Um diese Defizite zu beheben, wurde SkillsBench eingeführt, ein Benchmark, der Skills als erstklassige Bewertungsartefakte behandelt. Die Initiative SkillsBench, die auf dem Harbor-Framework aufbaut, verfolgt einen umfassenden Ansatz zur Evaluierung der Wirksamkeit von Skills in LLM-basierten Agenten. Jede Aufgabe ist in einer containerisierten Umgebung strukturiert und umfasst eine Umgebung mit Agent Skills und zugehörigen Daten, einen deterministischen Verifizierungstest sowie eine Referenzlösung. Dies gewährleistet eine strikte Isolation und deterministische Verifizierung, was eine reproduzierbare Auswertung ermöglicht.

Methodische Innovationen

SkillsBench unterscheidet sich von bestehenden Benchmarks, indem jede Aufgabe unter drei Bedingungen evaluiert wird:

Ohne Skills: Der Agent erhält lediglich die Aufgabenbeschreibung.
Mit kuratierten Skills: Der Agent hat Zugriff auf sorgfältig ausgewählte Skills, die prozedurales Wissen bereitstellen.
Mit selbstgenerierten Skills: Der Agent wird aufgefordert, vor der Aufgabenlösung selbst relevantes prozedurales Wissen zu generieren.

Dieser Ansatz ermöglicht eine direkte Messung der Wirksamkeit von Skills und eine Untersuchung der Fähigkeit von LLMs, prozedurales Wissen eigenständig zu erstellen.

Skill-Spezifikation

Ein Skill in SkillsBench muss vier Kriterien erfüllen:

Prozeduraler Inhalt: Er muss Anleitungen ("How-to-Guidance") enthalten, keine reine Faktenwiedergabe.
Anwendbarkeit auf Aufgabenklassen: Er muss für eine Klasse von Problemen anwendbar sein, nicht nur für eine einzelne Instanz.
Strukturierte Komponenten: Ein SKILL.md-Datei sowie optionale Ressourcen (Skripte, Vorlagen, Beispiele) sind erforderlich.
Portabilität: Skills basieren ausschließlich auf Dateisystemen, was ihre Bearbeitung, Versionierung, gemeinsame Nutzung und Verwendung über verschiedene Skill-kompatible Agenten-Harnesses hinweg erleichtert.

Diese Definition schließt System-Prompts, Few-Shot-Beispiele, RAG-Retrievals und Tool-Dokumentationen explizit aus, da diese entweder nicht die erforderliche Struktur oder den prozeduralen Fokus bieten.

Aufgaben-Spezifikation und Datensatz-Konstruktion

Jede Aufgabe in SkillsBench ist ein eigenständiges Modul mit vier Komponenten:

Anweisung: Eine menschenlesbare Aufgabenbeschreibung.
Umgebung: Ein Docker-Container mit aufgabenspezifischen Daten und Skills.
Lösung: Eine Referenzimplementierung zur Validierung der Lösbarkeit.
Verifizierer: Deterministische Testskripte zur objektiven Erfolgsmessung.

Um eine breite Abdeckung verschiedener Domänen und Problemtypen zu gewährleisten, wurde ein gemeinschaftsgetriebenes Open-Source-Modell für die Datensatz-Konstruktion gewählt. 105 Mitwirkende aus Wissenschaft und Industrie reichten 322 Kandidatenaufgaben ein, aus denen nach einem rigorosen Qualitätsfilterungsprozess 84 Aufgaben für den finalen SkillsBench-Datensatz ausgewählt wurden.

Experimentelles Setup und Ergebnisse

Die Evaluierung umfasste drei kommerzielle Agenten-Harnesses (Claude Code, Codex CLI, Gemini CLI) und sieben führende Modelle (GPT-5.2, Claude Opus 4.5/4.6, Claude Sonnet 4.5, Claude Haiku 4.5, Gemini 3 Pro, Gemini 3 Flash). Insgesamt wurden 7.308 Trajektorien analysiert.

Hauptergebnisse der Skills-Wirksamkeit

Deutlicher, aber variabler Nutzen: Kuratierte Skills führten im Durchschnitt zu einer Verbesserung der Erfolgsquote um 16,2 Prozentpunkte. Die Bandbreite reichte von +13,6pp bis +23,3pp, was die Abhängigkeit der Skills-Wirksamkeit von der spezifischen Agenten-Modell-Kombination unterstreicht.
Spitzenleistung mit Gemini CLI + Gemini 3 Flash: Diese Konfiguration erreichte mit Skills die höchste Erfolgsquote von 48,7 %. Claude Code mit Opus 4.5 zeigte die größte absolute Verbesserung (+23,3pp), was auf die optimierte native Skills-Integration hinweist.
Vernachlässigbarer Nutzen selbstgenerierter Skills: Modelle, die aufgefordert wurden, ihr prozedurales Wissen selbst zu generieren, zeigten im Durchschnitt eine Verschlechterung um 1,3pp im Vergleich zur Baseline ohne Skills. Dies deutet darauf hin, dass effektive Skills menschlich kuratierte Domänenexpertise erfordern, die Modelle nicht zuverlässig selbst generieren können. Fehlermodi umfassten unpräzise oder unvollständige Prozeduren sowie das Versäumnis, spezialisierte Skills für domänenintensive Aufgaben zu erkennen.

Domänen- und Aufgabenanalyse

Die Wirksamkeit von Skills variierte stark zwischen den Domänen:

Größte Verbesserungen: Gesundheitswesen (+51,9pp) und Fertigung (+41,9pp) profitierten am stärksten. Dies wird auf die Notwendigkeit spezialisierten prozeduralen Wissens zurückgeführt, das in der Vorabtrainierung der Modelle unterrepräsentiert ist.
Geringere Gewinne: Mathematik (+6,0pp) und Software Engineering (+4,5pp) zeigten kleinere Verbesserungen, da diese Domänen oft bereits eine starke Abdeckung in der Vorabtrainierung der Modelle aufweisen.
Negative Auswirkungen: Bei 16 von 84 Aufgaben beeinträchtigten Skills die Leistung. Dies deutet darauf hin, dass Skills bei Aufgaben, die von Modellen bereits gut bewältigt werden, zu widersprüchlichen Anleitungen oder unnötiger Komplexität führen können.

Skills-Design-Faktoren

Die Analyse der Skills-Design-Faktoren ergab wichtige Erkenntnisse:

Optimale Skills-Anzahl: 2–3 Skills pro Aufgabe zeigten die größte Verbesserung (+18,6pp). Mehr als 4 Skills führten zu abnehmendem Nutzen (+5,9pp), was auf einen kognitiven Overload oder widersprüchliche Anleitungen hindeutet.
Komplexität der Skills: Detaillierte und kompakte Skills waren effektiver als umfassende Dokumentationen. Letztere führten sogar zu einer Verschlechterung der Leistung (–2,9pp), da Agenten Schwierigkeiten haben könnten, relevante Informationen aus übermäßig langen Inhalten zu extrahieren.
Modellskalierungseffekte: Kleinere Modelle mit Skills konnten größere Modelle ohne Skills übertreffen. Claude Haiku 4.5 mit Skills (27,7 %) übertraf Haiku ohne Skills (11,0 %) um +16,7pp und sogar Claude Opus 4.5 ohne Skills (22,0 %). Dies zeigt, dass Skills Kapazitätsbeschränkungen teilweise kompensieren können.

Diskussion und Ausblick

Die Ergebnisse von SkillsBench deuten darauf hin, dass Skills am hilfreichsten sind, wenn der Erfolg von konkreten Prozeduren und verifizierbaren Details abhängt, anstatt von breitem konzeptionellem Wissen. Große Gewinne wurden in Domänen mit spezialisierten Arbeitsabläufen oder unflexibiblen Formaten erzielt, während in Domänen mit starken Modell-Prioritäten geringere oder sogar negative Effekte auftraten.

Die Wirksamkeit von Skills hängt nicht nur von ihrer Qualität ab, sondern auch davon, wie der Agenten-Harness die Skills implementiert. Einige Harnesses rufen Skills zuverlässig ab und nutzen sie, während andere den Inhalt zwar anerkennen, aber die Lösungen unabhängig implementieren. Dies unterstreicht die Notwendigkeit, Skills unter verschiedenen Harnesses zu evaluieren.

Für die Gestaltung von Skills implizieren die Ergebnisse, dass prägnante, schrittweise Anleitungen mit mindestens einem funktionierenden Beispiel oft effektiver sind als umfassende Dokumentationen. Übermäßig lange Skill-Definitionen können die Kontextlast erhöhen, ohne die Entscheidungsfindung zu verbessern. Modulare Skills scheinen bei mehrteiligen Aufgaben besser zu funktionieren, und Skills sollten explizit an die Einschränkungen des Harness angepasst sein.

Einschränkungen und zukünftige Forschungsfelder

SkillsBench konzentriert sich auf terminalbasierte, containerisierte Aufgaben zur reproduzierbaren Evaluierung, daher sind die Ergebnisse möglicherweise nicht direkt auf GUI-Agenten, Multi-Agenten-Koordination oder sehr langfristige Arbeitsabläufe übertragbar. Die Evaluierung umfasste auch eine begrenzte Anzahl von Modellen und Harnesses, deren Verhalten und Skills-Integration sich im Laufe der Zeit ändern können. Zukünftige Arbeiten könnten die Entwicklung multimodaler Skills und Protokolle für Vision-Language-Agenten in GUI-Umgebungen umfassen.

Die Injektion von Skills erhöht die Kontextlänge, sodass beobachtete Gewinne teilweise durch "mehr Kontext" und nicht nur durch prozedurale Struktur erklärt werden könnten. Die Bedingung der selbstgenerierten Skills deutet jedoch darauf hin, dass die Struktur entscheidend ist, da Modelle trotz gleichen Kontextbudgets keine effektiven prozeduralen Anleitungen zuverlässig erstellen können. Zukünftige Arbeiten erfordern stärkere, längen-angepasste Baselines (z.B. zufälliger/irrelevanter Text und nur-Retrieval-Dokumentationskontrollen). Diese Baselines würden auch die Untersuchung der automatischen Skills-Synthese aus Demonstrationen oder Dokumentationen ermöglichen und isolieren, welche Skill-Komponenten (Schritte, Beispiele, Code-Ressourcen) zu Verbesserungen führen.

Obwohl die Containerisierung eine Zustandsisolation bietet, garantiert sie keine perfekte Determiniertheit oder Immunität gegenüber Leckagen im Trainingsdatensatz. Dies wurde durch mehrere Durchläufe, eine Leckageprüfung und gepaarte Vergleiche (mit und ohne Skills) gemildert, jedoch können nicht alle Nicht-Determiniertheits- oder Memorisationseffekte eliminiert werden. Zukünftige Arbeiten sollten ökosystemrepräsentative Einstellungen bewerten, einschließlich qualitativ geringerer und automatisch ausgewählter Skills, und die Komposition von Skills untersuchen – wann mehrere Skills helfen oder stören und ob die Gesamtleistung aus den Effekten atomarer Skills vorhergesagt werden kann.

Fazit

SkillsBench etabliert eine neue Grundlage für die systematische Bewertung von Agent Skills und liefert entscheidende Erkenntnisse für die Entwicklung zuverlässigerer und leistungsfähigerer KI-Agenten. Die Wirksamkeit von Skills ist nicht universell, sondern kontextabhängig, was eine gepaarte Evaluierung als Standardpraxis für die Agenten-Augmentierungsforschung motiviert. SkillsBench bietet sowohl die empirische Grundlage als auch eine offene Infrastruktur für ein prinzipienbasiertes Design, die Auswahl und den Einsatz von Skills.

Bibliography

- Anthropic. (2024). Introducing the model context protocol. - Anthropic. (2025a). Equipping agents for the real world with agent skills. Anthropic Engineering Blog. - Anthropic. (2025b). Claude code: an agentic coding tool. - Anthropic. (2026). Demystifying evals for AI agents. Anthropic Engineering Blog. - Austin, J., Odena, A., Nye, M., Bosma, M., Michalewski, H., Dohan, D., Jiang, E., Cai, C., Terry, M., Le, Q., et al. (2021). Program synthesis with large language models. arXiv preprint arXiv:2108.07732. - Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J. D., Dhariwal, P., Neelakantan, A., Shyam, P., Sastry, G., Askell, A., et al. (2020). Language models are few-shot learners. Advances in neural information processing systems 33, 1877–1901. - Brown, W. (2025). Verifiers: environments for llm reinforcement learning. - Chan, J. S., Chowdhury, N., Jaffe, O., Aung, J., Sherburn, D., Mays, E., Starace, G., Liu, K., Maksin, L., Patwardhan, T., et al. (2025). MLE-bench: evaluating machine learning agents on machine learning engineering. The Thirteenth International Conference on Learning Representations. - Chiang, W.-L., Zheng, L., Sheng, Y., Angelopoulos, A. N., Li, T., Li, D., Zhu, B., Zhang, H., Jordan, M., Gonzalez, J. E., et al. (2024). Chatbot arena: an open platform for evaluating llms by human preference. Forty-first International Conference on Machine Learning. - Chowdhery, A., Narang, S., Devlin, J., Bosma, M., Mishra, G., Roberts, A., Barham, P., Chung, H. W., Sutton, C., Gehrmann, S., et al. (2023). Palm: scaling language modeling with pathways. Journal of Machine Learning Research 24(240), 1–113. - Google. (2025). Gemini cli: an open-source ai agent that brings the power of gemini directly into your terminal. - Hake, R. R. (1998). Interactive-engagement versus traditional methods: a six-thousand-student survey of mechanics test data for introductory physics courses. American journal of Physics 66(1), 64–74. - Harbor Framework Team. (2026). Harbor: A framework for evaluating and optimizing agents and models in container environments. - Jimenez, C. E., Yang, J., Wettig, A., Yao, S., Pei, K., Press, O., & Narasimhan, K. R. (2024). SWE-bench: can language models resolve real-world github issues?. The Twelfth International Conference on Learning Representations. - Khattab, O., Singhvi, A., Maheshwari, P., Zhang, Z., Santhanam, K., Vardhamanan, S., Haq, S., Sharma, A., Joshi, T. T., Moazam, H., et al. (2023). Dspy: compiling declarative language model calls into self-improving pipelines. arXiv preprint arXiv:2310.03714. - Koh, J. Y., Lo, R., Jang, L., Duvvur, V., Lim, M., Huang, P.-Y., Neubig, G., Zhou, S., Salakhutdinov, R., & Fried, D. (2024). Visualwebarena: evaluating multimodal agents on realistic visual web tasks. Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 881–905. - Lewis, P., Perez, E., Piktus, A., Petroni, F., Karpukhin, V., Goyal, N., Küttler, H., Lewis, M., Yih, W.-t., Rocktäschel, T., et al. (2020). Retrieval-augmented generation for knowledge-intensive nlp tasks. Advances in neural information processing systems 33, 9459–9474. - Liu, X., Yu, H., Zhang, H., Xu, Y., Lei, X., Lai, H., Gu, Y., Ding, H., Men, K., Yang, K., et al. (2023). Agentbench: evaluating llms as agents. arXiv preprint arXiv:2308.03688. - Madaan, A., Tandon, N., Gupta, P., Hallinan, S., Gao, L., Wiegreffe, S., Alon, U., Dziri, N., Prabhumoye, S., Yang, Y., et al. (2023). Self-refine: iterative refinement with self-feedback. Advances in Neural Information Processing Systems 36, 46534–46594. - Mattson, P., Cheng, C., Diamos, G., Coleman, C., Micikevicius, P., Patterson, D., Tang, H., Wei, G.-Y., Bailis, P., Bittorf, V., et al. (2020). Mlperf training benchmark. Proceedings of Machine Learning and Systems 2, 336–349. - Merrill, M. A., Shaw, A. G., Carlini, N., Li, B., Raj, H., Bercovich, I., Shi, L., Shin, J. Y., Walshe, T., Buchanan, E. K., et al. (2026). Terminal-bench: benchmarking agents on hard, realistic tasks in command line interfaces. - OpenAI. (2025). Codex cli: lightweight coding agent that runs in your terminal. - Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C., Mishkin, P., Zhang, C., Agarwal, S., Slama, K., Ray, A., et al. (2022). Training language models to follow instructions with human feedback. Advances in neural information processing systems 35, 27730–27744. - Pan, M. Z., Cemri, M., Agrawal, L. A., Yang, S., Chopra, B., Tiwari, R., Keutzer, K., Parameswaran, A., Ramchandran, K., Klein, D., et al. (2025). Why do multiagent systems fail? ICLR 2025 Workshop on Building Trust in Language Models and Applications. - Qin, Y., Liang, S., Ye, Y., Zhu, K., Yan, L., Lu, Y., Lin, Y., Cong, X., Tang, X., Qian, B., et al. (2024). ToolLLM: facilitating large language models to master 16000+ real-world apis. International Conference on Learning Representations, 2024, 9695–9717. - Schick, T., Dwivedi-Yu, J., Dessì, R., Raileanu, R., Lomeli, M., Hambro, E., Zettlemoyer, L., Cancedda, N., & Scialom, T. (2023). Toolformer: language models can teach themselves to use tools. Advances in Neural Information Processing Systems 36, 68539–68551. - Shinn, N., Cassano, F., Gopinath, A., Narasimhan, K., & Yao, S. (2023). Reflexion: language agents with verbal reinforcement learning. Advances in Neural Information Processing Systems 36, 8634–8652. - Srivastava, A., Rastogi, A., Rao, A., Shoeb, A. A. M., Abid, A., Fisch, A., Brown, A. R., Santoro, A., Gupta, A., Garriga-Alonso, A., et al. (2023). Beyond the imitation game: quantifying and extrapolating the capabilities of language models. Transactions on machine learning research. - Sumers, T., Yao, S., Narasimhan, K. R., & Griffiths, T. L. (2023). Cognitive architectures for language agents. Transactions on Machine Learning Research. - Sutton, R. S., Precup, D., & Singh, S. (1999). Between mdps and semi-mdps: a framework for temporal abstraction in reinforcement learning. Artificial intelligence 112(1-2), 181–211. - Touvron, H., Lavril, T., Izacard, G., Martinet, X., Lachaux, M.-A., Lacroix, T., Rozière, B., Goyal, N., Hambro, E., Azhar, F., et al. (2023). Llama: open and efficient foundation language models. arXiv preprint arXiv:2302.13971. - Trivedi, H., Khot, T., Hartmann, M., Manku, R., Dong, V., Li, E., Gupta, S., Sabharwal, A., & Balasubramanian, N. (2024). AppWorld: a controllable world of apps and people for benchmarking interactive coding agents. Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 16022–16076. - Wang, G., Xie, Y., Jiang, Y., Mandlekar, A., Xiao, C., Zhu, Y., Fan, L., & Anandkumar, A. (2023a). Voyager: an open-ended embodied agent with large language models. arXiv preprint arXiv:2305.16291. - Wang, Z., Zhou, S., Fried, D., & Neubig, G. (2023b). Execution-based evaluation for open-domain code generation. Findings of the Association for Computational Linguistics: EMNLP 2023, 1271–1290. - Wei, J., Wang, X., Schuurmans, D., Bosma, M., Xia, F., Chi, E., Le, Q. V., Zhou, D., et al. (2022). Chain-of-thought prompting elicits reasoning in large language models. Advances in neural information processing systems 35, 24824–24837. - Xie, T., Zhang, D., Chen, J., Li, X., Zhao, S., Cao, R., Hua, T. J., Cheng, Z., Shin, D., Lei, F., et al. (2024). Osworld: benchmarking multimodal agents for open-ended tasks in real computer environments. Advances in Neural Information Processing Systems 37, 52040–52094. - Yang, J., Jimenez, C. E., Wettig, A., Lieret, K., Yao, S., Narasimhan, K., & Press, O. (2024). Swe-agent: agent-computer interfaces enable automated software engineering. Advances in Neural Information Processing Systems 37, 50528–50652. - Yang, J., Lieret, K., Jimenez, C. E., Wettig, A., Khandpur, K., Zhang, Y., Hui, B., Press, O., Schmidt, L., & Yang, D. (2025). Swe-smith: scaling data for software engineering agents. - Yang, J., Prabhakar, A., Narasimhan, K., & Yao, S. (2023). Intercode: standardizing and benchmarking interactive coding with execution feedback. Advances in Neural Information Processing Systems 36, 23826–23854. - Yao, S., Shinn, N., Razavi, P., & Narasimhan, K. R. (2025). τ-Bench: a benchmark for tool-agent-user interaction in real-world domains. The Thirteenth International Conference on Learning Representations. - Yao, S., Yu, D., Zhao, J., Shafran, I., Griffiths, T., Cao, Y., & Narasimhan, K. (2023). Tree of thoughts: deliberate problem solving with large language models. Advances in neural information processing systems 36, 11809–11822. - Yao, S., Zhao, J., Yu, D., Du, N., Shafran, I., Narasimhan, K. R., & Cao, Y. (2022). React: synergizing reasoning and acting in language models. The eleventh international conference on learning representations. - Ye, C., Yuan, S., Cooray, S., Dillmann, S., Roque, I. L. V., Baron, D., Frank, P., Martin-Alvarez, S., Koblischke, N., Qu, F. J., et al. (2025). ReplicationBench: can ai agents replicate astrophysics research papers?. - Zhang, A. K., Perry, N., Dulepet, R., Ji, J., Menders, C., Lin, J. W., Jones, E., Hussein, G., Liu, S., Jasper, D., et al. (2024). Cybench: a framework for evaluating cybersecurity capabilities and risks of language models. arXiv preprint arXiv:2408.08926. - Zhou, A., Yan, K., Shlapentokh-Rothman, M., Wang, H., & Wang, Y.-X. (2024a). Language agent tree search unifies reasoning acting and planning in language models. International Conference on Machine Learning (ICML). - Zhou, D., Schärli, N., Hou, L., Wei, J., Scales, N., Wang, X., Schuurmans, D., Cui, C., Bousquet, O., Le, Q., & Chi, E. (2023). Least-to-most prompting enables complex reasoning in large language models. The Eleventh International Conference on Learning Representations (ICLR). - Zhou, S., Alon, U., Xu, F. F., Jiang, Z., & Neubig, G. (2022). Docprompting: generating code by retrieving the docs. The Eleventh International Conference on Learning Representations. - Zhou, S., Xu, F. F., Zhu, H., Zhou, X., Lo, R., Sridhar, A., Cheng, X., Ou, T., Bisk, Y., Fried, D., et al. (2024b). WebArena: a realistic web environment for building autonomous agents. The Twelfth International Conference on Learning Representations. - Zhu, Y., Jin, T., Pruksachatkun, Y., Zhang, A. K., Liu, S., Cui, S., Kapoor, S., Longpre, S., Meng, K., Weiss, R., et al. (2025). Establishing best practices in building rigorous agentic benchmarks. The Thirty-ninth Annual Conference on Neural Information Processing Systems Datasets and Benchmarks Track. - Zhuo, T. Y., Chien, V. M., Chim, J., Hu, H., Yu, W., Widyasari, R., Yusuf, I. N. B., Zhan, H., He, J., Paul, I., et al. (2025). BigCodeBench: benchmarking code generation with diverse function calls and complex instructions. The Thirteenth International Conference on Learning Representations.