Neue Ansätze zur autonomen Optimierung von GPU-Kernels durch Agentic Variation Operators

Kategorien:

No items found.

Freigegeben:

March 29, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Agentic Variation Operators (AVO) stellen eine neue Klasse evolutionärer Variationsoperatoren dar, die feste Mutations- und Crossover-Heuristiken durch autonome Code-Agenten ersetzen.
AVO-Agenten sind selbstgesteuert und können den aktuellen Lösungsverlauf, eine domänenspezifische Wissensbasis und Ausführungs-Feedback nutzen, um Implementierungen vorzuschlagen, zu reparieren, zu bewerten und zu verifizieren.
Bei der Optimierung von Attention-Kernels auf NVIDIA Blackwell (B200) GPUs übertraf AVO in 7 Tagen kontinuierlicher, autonomer Evolution cuDNN um bis zu 3,5 % und FlashAttention-4 um bis zu 10,5 %.
Die entdeckten Optimierungen sind übertragbar und konnten innerhalb von 30 Minuten autonomer Anpassung auf Grouped-Query Attention (GQA) übertragen werden, was Leistungssteigerungen von bis zu 7,0 % gegenüber cuDNN und 9,3 % gegenüber FlashAttention-4 ergab.
AVO demonstriert die Fähigkeit, performanzkritische mikroarchitektonische Optimierungen zu finden, die über den Stand der Technik hinausgehen und von Experten entwickelte Implementierungen übertreffen.

Revolution in der Code-Optimierung: Autonome Agenten übertreffen menschliche Experten bei der GPU-Kernel-Entwicklung

Die kontinuierliche Weiterentwicklung von KI-Modellen und die steigenden Anforderungen an deren Rechenleistung führen zu einem erhöhten Bedarf an hocheffizienten Software-Implementierungen. Insbesondere im Bereich der Grafikprozessoren (GPUs) ist die Optimierung von Kernels eine komplexe Aufgabe, die tiefgreifendes Hardware-Verständnis und iterative Ingenieursarbeit erfordert. Eine aktuelle Forschungsarbeit stellt nun eine innovative Methode vor: Agentic Variation Operators (AVO), die autonome Agenten einsetzen, um diese Optimierungsprozesse zu revolutionieren und dabei menschliche Experten zu übertreffen.

AVO: Eine neue Ära der evolutionären Suche

Traditionelle evolutionäre Suchverfahren, die in der Vergangenheit bereits mit Großen Sprachmodellen (LLMs) angereichert wurden (wie z.B. FunSearch oder AlphaEvolve), beschränkten die Rolle der LLMs meist auf die Generierung von Kandidatenlösungen innerhalb einer vordefinierten Pipeline. Diese Modelle agierten als "Generatoren", die auf Basis von Stichproben Elternprogramme neue Lösungen erstellten. Die Auswahlstrategie, die Bewertung und das Populationsmanagement blieben dabei festen algorithmischen Regeln unterworfen.

Die AVO-Methode bricht mit diesem Paradigma. Sie ersetzt die starren Mutations-, Crossover- und handdesignten Heuristiken klassischer evolutionärer Suche durch autonome Code-Agenten. Anstatt ein Sprachmodell auf die Kandidatengenerierung zu beschränken, implementiert AVO die Variation als eine selbstgesteuerte Agentenschleife. Diese Schleife ermöglicht es dem Agenten, den aktuellen Lösungsverlauf, eine domänenspezifische Wissensbasis (z.B. CUDA-Programmierhandbücher, PTX ISA-Dokumentation, Blackwell-Architekturspezifikationen) und Ausführungs-Feedback zu konsultieren. Auf dieser Grundlage kann der Agent Implementierungen vorschlagen, reparieren, kritisch bewerten und verifizieren. Dies stellt einen fundamentalen Wandel dar: Der Agent wird vom reinen Kandidatengenerator zum eigentlichen Variationsoperator.

Experimentelle Validierung auf NVIDIA Blackwell GPUs

Um die Effektivität von AVO zu demonstrieren, wurde die Methode auf die Optimierung von Attention-Kernels angewandt, einem der am aggressivsten optimierten Kernel-Ziele in der KI. Die Tests wurden auf NVIDIA Blackwell (B200) GPUs durchgeführt, einer Hardware-Architektur, die für ihre Komplexität und die hohen Anforderungen an die Kernel-Optimierung bekannt ist.

Über einen Zeitraum von sieben Tagen kontinuierlicher, autonomer Evolution für Multi-Head Attention (MHA) entdeckte AVO Kernels, die die Leistung von cuDNN um bis zu 3,5 % und die von FlashAttention-4 um bis zu 10,5 % übertrafen. Diese Ergebnisse wurden über verschiedene Konfigurationen hinweg erzielt und unterstreichen die Fähigkeit des Agenten, Leistungsengpässe auf mikroarchitektonischer Ebene zu identifizieren und zu beheben.

Übertragbarkeit der Optimierungen: Grouped-Query Attention (GQA)

Ein wesentlicher Aspekt der evaluerten Optimierungen ist deren Übertragbarkeit. Um diese zu testen, wurde der AVO-Agent aufgefordert, den entwickelten MHA-Kernel an Grouped-Query Attention (GQA) anzupassen. GQA weist andere Rechen- und Speicherzugriffsmuster auf als MHA.

Der Agent bewältigte diese Anpassung autonom in nur etwa 30 Minuten und erzeugte einen GQA-fähigen Kernel. Die dabei erzielten Leistungssteigerungen waren signifikant: bis zu 7,0 % gegenüber cuDNN und 9,3 % gegenüber FlashAttention-4. Dies deutet darauf hin, dass die von AVO entdeckten Optimierungen nicht nur spezifisch für die Trainingskonfigurationen sind, sondern auf zugrunde liegenden Hardware-Prinzipien basieren und somit verallgemeinerbar sind.

Der Entwicklungsprozess: Kontinuierliche Evolution und Selbstüberwachung

Der siebentägige Evolutionslauf umfasste 40 aufeinanderfolgende Kernel-Versionen. Dabei wurden über 500 Optimierungsrichtungen intern erforscht, einschließlich Versuchen, die Fehler aufwiesen oder die Leistung minderten. Dieser Umfang an systematischer Exploration übersteigt das, was ein menschlicher Ingenieur im gleichen Zeitraum leisten könnte.

Die Leistungsverbesserungen zeigten sich nicht als stetiger Anstieg, sondern in diskreten Sprüngen, gefolgt von Plateaus. Die größten Gewinne korrelierten mit architektonischen Wendepunkten, wie der Einführung von QK-PV-Interleaving oder der Neugestaltung der Softmax-Berechnung. Spätere Versionen führten zu kleineren, aber kumulativen Verbesserungen durch detaillierte Taktzyklus-Planung und Ressourcenoptimierung. Dieses Muster ist typisch für Optimierungsprozesse, bei denen zunächst grobe Verbesserungen erzielt und anschließend feinere Anpassungen vorgenommen werden.

Ein entscheidender Mechanismus zur Vermeidung von Stagnation in diesem langfristigen Optimierungsprozess ist die Selbstüberwachung. Der AVO-Agent ist in der Lage, Phasen der Stagnation zu erkennen und die Suchstrategie neu auszurichten, indem er gezielt neue Optimierungsrichtungen ansteuert. Dies verhindert, dass der Agent in unproduktiven Schleifen verharrt.

Analyse der Agenten-entdeckten Optimierungen

Die detaillierte Analyse der von AVO entdeckten Optimierungen offenbart ein tiefes Verständnis der Hardware-Architektur. Drei exemplarische Optimierungen werden hervorgehoben:

Branchless Accumulator Rescaling: Der Agent ersetzte eine bedingte Verzweigung im Online-Softmax-Algorithmus durch einen verzweigungslosen spekulativen Pfad. Dies eliminierte den Overhead der Warp-Synchronisation und ermöglichte den Einsatz leichterer Speicherzäune, was zu einer Leistungssteigerung von bis zu 8,1 % führte.
Correction/MMA Pipeline Overlap: Durch die Umstrukturierung der Pipeline konnte der Korrektur-Warp mit der Normalisierung des Outputs der ersten Stufe beginnen, während die zweite Stufe noch ihre Matrixmultiplikation durchführte. Dies verwandelte eine sequentielle Abhängigkeit in eine parallele Ausführung und verbesserte den Durchsatz um bis zu 1,1 %.
Register-Rebalancing über Warp-Gruppen hinweg: Der Agent erkannte eine ineffiziente Zuweisung von Registern auf der Blackwell-GPU und verteilte 8 Register von einer weniger ausgelasteten Softmax-Gruppe zu den Korrektur-Warps. Dies verhinderte das Auslagern von Werten in langsameren Speicher und führte zu einer Leistungssteigerung von bis zu 2,1 %.

Diese Optimierungen erforderten ein kombiniertes Verständnis mehrerer Hardwaresubsysteme, einschließlich Synchronisation, Speicherreihenfolge, Pipeline-Planung und Registerzuweisung. Dies deutet darauf hin, dass AVO in der Lage ist, auf Expertenniveau zu argumentieren und zu optimieren.

Fazit und Ausblick

Die Agentic Variation Operators (AVO) stellen einen signifikanten Fortschritt in der automatisierten Software-Optimierung dar. Indem sie die Rolle von KI-Agenten von reinen Kandidatengeneratoren zu autonomen Variationsoperatoren erweitern, ermöglichen sie die Entdeckung von performanzkritischen mikroarchitektonischen Optimierungen, die selbst von erfahrenen menschlichen Experten nur schwer zu erreichen sind. Die erzielten Ergebnisse auf NVIDIA Blackwell GPUs, insbesondere die Überlegenheit gegenüber etablierten Lösungen wie cuDNN und FlashAttention-4, sind bemerkenswert.

Die Übertragbarkeit der entdeckten Optimierungen auf verschiedene Attention-Typen wie GQA unterstreicht das Potenzial von AVO, nicht nur spezifische Probleme zu lösen, sondern ein generelles Verständnis für Hardware-Interaktionen zu entwickeln. Da AVO auf der Ebene der Variationsoperatoren und nicht auf eine spezifische Domäne beschränkt ist, eröffnet es breitere Wege für die autonome Optimierung jenseits von Attention-Kernels. Dies könnte andere performanzkritische Softwaresysteme auf verschiedenen Hardware-Plattformen sowie Ingenieur- und Wissenschaftsbereiche umfassen, die eine umfassende autonome Exploration erfordern.

Die Einführung von AVO deutet auf eine Zukunft hin, in der KI-Agenten eine immer zentralere Rolle in der Hardware- und Software-Entwicklung spielen könnten, möglicherweise sogar in der Co-Design-Phase von zukünftigen Siliziumarchitekturen.

Bibliography - T. Bäck, D. B. Fogel, and Z. Michalewicz (1997) Handbook of evolutionary computation. Release 97 (1), pp. B1. - A. Chen, D. M. Dohan, and D. R. So (2023) EvoPrompting: language models for code-level neural architecture search. - S. Chetlur, C. Woolley, P. Vandermersch, J. Cohen, J. Tran, B. Catanzaro, and E. Shelhamer (2014) CuDNN: efficient primitives for deep learning. - T. Dao, D. Y. Fu, S. Ermon, A. Rudra, and C. Ré (2022) FlashAttention: fast and memory-efficient exact attention with io-awareness. - T. Dao (2023) FlashAttention-2: faster attention with better parallelism and work partitioning. - C. E. Jimenez, J. Yang, A. Wettig, S. Yao, K. Pei, O. Press, and K. Narasimhan (2024) SWE-bench: can language models resolve real-world github issues?. - J. Lehman, J. Gordon, S. Jain, K. Ndousse, C. Yeh, and K. O. Stanley (2022) Evolution through large models. - J. Mouret and J. Clune (2015) Illuminating search spaces by mapping elites. - A. Novikov, N. Vũ, M. Eisenberger, E. Dupont, P. Huang, A. Z. Wagner, S. Shirobokov, B. Kozlovskii, F. J. R. Ruiz, A. Mehrabian, M. P. Kumar, A. See, S. Chaudhuri, G. Holland, A. Davies, S. Nowozin, P. Kohli, and M. Balog (2025) AlphaEvolve: a coding agent for scientific and algorithmic discovery. - M. O’Neill, L. Vanneschi, S. Gustafson, and W. Banzhaf (2010) Open issues in genetic programming. Genetic Programming and Evolvable Machines 11 (3), pp. 339–363. - B. Romera-Paredes, M. Barekatain, A. Novikov, M. Balog, M. P. Kumar, E. Dupont, F. J. R. Ruiz, J. S. Ellenberg, P. Wang, O. Fawzi, P. Kohli, and A. Fawzi (2024) Mathematical discoveries from program search with large language models. Nature 625, pp. 468–475. - J. Shah, G. Bikshandi, Y. Zhang, V. Thakkar, P. Ramani, and T. Dao (2024) FlashAttention-3: fast and accurate attention with asynchrony and low-precision. - D. Silver, A. Huang, C. J. Maddison, A. Guez, L. Sifre, G. Van Den Driessche, J. Schrittwieser, I. Antonoglou, V. Panneershelvam, M. Lanctot, et al. (2016) Mastering the game of go with deep neural networks and tree search. nature 529 (7587), pp. 484–489. - A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, L. Kaiser, and I. Polosukhin (2023) Attention is all you need. - C. Wan, X. Dai, Z. Wang, M. Li, Y. Wang, Y. Mao, Y. Lan, and Z. Xiao (2025) LoongFlow: directed evolutionary search via a cognitive plan-execute-summarize paradigm. - X. Wang, B. Li, Y. Song, F. F. Xu, X. Tang, M. Zhuge, J. Pan, Y. Song, B. Li, J. Singh, H. H. Tran, F. Li, R. Ma, M. Zheng, B. Qian, Y. Shao, N. Muennighoff, Y. Zhang, B. Hui, J. Lin, R. Brennan, H. Peng, H. Ji, and G. Neubig (2025) OpenHands: an open platform for ai software developers as generalist agents. - B. Xu, T. Chen, F. Zhou, T. Chen, Y. Jia, V. Grover, H. Wu, W. Liu, C. Wittenbrink, W. Hwu, R. Bringmann, M. Liu, L. Ceze, M. Lightstone, and H. Shi (2026) VibeTensor: System Software for Deep Learning, Fully Generated by AI Agents. - A. Yang, A. Li, B. Yang, B. Zhang, B. Hui, B. Zheng, B. Yu, C. Gao, C. Huang, C. Lv, C. Zheng, D. Liu, F. Zhou, F. Huang, F. Hu, H. Ge, H. Wei, H. Lin, J. Tang, J. Yang, J. Tu, J. Zhang, J. Yang, J. Yang, J. Zhou, J. Zhou, J. Lin, K. Dang, K. Bao, K. Yang, L. Yu, L. Deng, M. Li, M. Xue, M. Li, P. Zhang, P. Wang, Q. Zhu, R. Men, R. Gao, S. Liu, S. Luo, T. Li, T. Tang, W. Yin, X. Ren, X. Wang, X. Zhang, X. Ren, Y. Fan, Y. Su, Y. Zhang, Y. Zhang, Y. Wan, Y. Liu, Z. Wang, Z. Cui, Z. Zhang, Z. Zhou, and Z. Qiu (2025) Qwen3 technical report. - J. Yang, C. E. Jimenez, A. Wettig, K. Lieret, S. Yao, K. Narasimhan, and O. Press (2024) SWE-agent: agent-computer interfaces enable automated software engineering. - H. Ye, J. Wang, Z. Cao, F. Berto, C. Hua, H. Kim, J. Park, and G. Song (2024) ReEvo: large language models as hyper-heuristics with reflective evolution. - M. Yuksekgonul, D. Koceja, X. Li, F. Bianchi, J. McCaleb, X. Wang, J. Kautz, Y. Choi, J. Zou, C. Guestrin, and Y. Sun (2026) Learning to discover at test time. - T. Zadouri, M. Hoehnerbach, J. Shah, T. Liu, V. Thakkar, and T. Dao (2026) FlashAttention-4: algorithm and kernel pipelining co-design for asymmetric hardware scaling. - Terry Chen, Zhifan Ye, Bing Xu, Zihao Ye, Timmy Liu, Ali Hassani, Tianqi Chen, Andrew Kerr, Haicheng Wu, Yang Xu, Yu-Jung Chen, Hanfeng Chen, Aditya Kane, Ronny Krashinsky, Ming-Yu Liu, Vinod Grover, Luis Ceze, Roger Bringmann, John Tran, Wei Liu, Fung Xie, Michael Lightstone, Humphrey Shi (2026) AVO: Agentic Variation Operators for Autonomous Evolutionary Search. arXiv:2603.24517. - AlphaXiv: AVO: Agentic Variation Operators for Autonomous Evolutionary Search (2026) https://www.alphaxiv.org/abs/2603.24517 - AI Paper Slop: AVO: Agentic Variation Operators for Autonomous Evolutionary Search (Mar 2026) (2026) https://www.youtube.com/watch?v=mA6uPTFdPdc - SeriesFusion.ai: Agentic Variation Operators (AVO) replace fixed evolutionary heuristics with coding agents to discover GPU kernels that outperform FlashAttention-4 by 10.5% (2026) https://www.seriesfusion.ai/paper/2603.24517