Supercomputer-Wettrennen: Oracle tritt gegen Colossus an
Einführung
Das Rennen um die Vorherrschaft im Bereich der Supercomputer nimmt eine neue Wendung. Während Elon Musks xAI mit dem Colossus-Projekt Schlagzeilen macht, hat Oracle Pläne zur Entwicklung eines eigenen Supercomputers angekündigt, der Colossus übertreffen könnte. Diese Entwicklungen versprechen nicht nur spannende technologische Fortschritte, sondern werfen auch Fragen zur Energieversorgung und Nachhaltigkeit auf.
Technische Spezifikationen und Kapazitäten
Oracle plant, im ersten Halbjahr 2025 ein Rechenzentrum mit 131.072 Blackwell-GPUs von Nvidia fertigzustellen. Die Technologien basieren größtenteils auf fertigen Server-Racks von Nvidia, den GB200 NVL72. Jedes dieser wassergekühlten Racks besteht aus 36 GB200-Boards, die jeweils mit Grace-ARM-Prozessoren (je 72 CPU-Kerne) und 72 B200-Beschleunigern ausgestattet sind. Der Vorteil für Oracle liegt darin, dass Nvidia die komplette Netzwerktechnik, einschließlich Nvlink-Switches, für die Hardware-Vernetzung liefert.
Leistungsfähigkeit und Benchmarks
Die Leistungsfähigkeit dieser neuen Supercomputer ist beeindruckend. Die 131.072 Blackwell-Beschleuniger von Oracle könnten theoretisch 5,9 Exaflops bei Gleitkomma-Operationen mit doppelter Genauigkeit (FP64) erreichen. Zum Vergleich: Der aktuelle Spitzenreiter der Top500-Liste, Frontier mit AMD-Hardware, erreicht 1,7 Exaflops. Für das Training von KI-Algorithmen, bei denen geringere Genauigkeit erforderlich ist, gibt Oracle eine Leistung von 2,4 Zetaflops an.
Vergleich mit Colossus
Colossus, das von xAI entwickelt wurde, verwendet rund 100.000 H100-Beschleuniger aus Nvidias Hopper-Generation. Diese kommen rechnerisch auf 3,4 FP64-Exaflops und 396 FP8-Exaflops. Die nächste Generation, H200, soll die Kapazität von Colossus auf 200.000 GPUs erhöhen. Dies macht Colossus zu einem ernstzunehmenden Konkurrenten, doch Oracle könnte diese Leistung mit seinen Blackwell-GPUs übertreffen.
Energiebedarf und Infrastruktur
Die enormen Rechenleistungen dieser Supercomputer haben ihren Preis in Bezug auf den Energieverbrauch. Nvidia spezifiziert jedes GB200 NVL72 mit einer elektrischen Leistungsaufnahme von 120 Kilowatt. Das gesamte Oracle-System würde somit etwa 220 Megawatt benötigen, ohne den zusätzlichen Energiebedarf für Kühlung und Netzwerk. Oracles Technikchef Lawrence Ellison hat angekündigt, dass die aktuellen Rechenzentren des Unternehmens bis zu 800 MW ziehen. Erste Gigawatt-Systeme sind bereits in Planung, und das Blackwell-System könnte eines davon sein.
Nachhaltigkeit und Energiequellen
Ein großes Thema bleibt die Energiebeschaffung. Oracle plant, in Zukunft auf Small Modular Reactors (SMR) zu setzen, um seine Rechenzentren mit Strom zu versorgen. Drei solcher SMRs sollen bereits genehmigt worden sein. Diese Entwicklung könnte das Problem der Energieversorgung lösen, wirft aber auch Fragen zur Sicherheit und Nachhaltigkeit auf.
Marktstrategie und Geschäftsmodell
Anders als Unternehmen wie OpenAI, Meta und xAI, die eigene KI-Modelle entwickeln, plant Oracle, Cloud-Rechenkapazität für das KI-Training zu verkaufen. Kunden könnten Instanzen von bis zu 72 B200-GPUs mieten. Noch vor dem Blackwell-System wird Oracle ein Rechenzentrum mit 65.536 H200-Beschleunigern fertigstellen.
Fazit
Das Wettrennen um den leistungsstärksten Supercomputer ist in vollem Gange. Während xAI mit Colossus beeindruckende Fortschritte macht, hat Oracle das Potenzial, diese Leistung zu übertreffen. Die Herausforderungen in Bezug auf Energieverbrauch und Infrastruktur sind erheblich, doch die technologischen Fortschritte und die Marktstrategie versprechen spannende Entwicklungen in den kommenden Jahren.
Bibliographie:
- https://newstral.com/de/article/de/1257825749/supercomputer-wettrennen-oracle-%C3%BCbertrumpft-colossus-supercomputer-wettrennen-oracle-%C3%BCbertrumpft-colossus
- https://www.heise.de/
- https://newstral.com/de/articles