Cloud-GPUs als KI-Beschleuniger In der Cloud „GaaS geben“

Von Filipe Pereira Martins und CTO und CISO Anna Kobylinska 8 min Lesedauer

Rechenintensive Cloud-Arbeitslasten machen leistungsstarke Hardwarebeschleuniger unumgänglich. Wo Parallelisierung auf Skalierbarkeit trifft, schaffen Cloud-GPUs Abhilfe. Während die Hyperscaler von der Anziehungskraft ihrer hohen Bekanntheit profitieren, buhlen spezialisierte Anbieter um die Gunst der Cloud-Nutzer mit moderaten Preisen und innovativen Ansätzen.

GPU as a Service ermöglicht es Unternehmen und Entwicklern, kostengünstig und flexibel auf leistungsstarke GPU-Ressourcen zuzugreifen, ohne in teure Hardware investieren zu müssen.(Bild:  IM Imagery - stock.adobe.com)
GPU as a Service ermöglicht es Unternehmen und Entwicklern, kostengünstig und flexibel auf leistungsstarke GPU-Ressourcen zuzugreifen, ohne in teure Hardware investieren zu müssen.
(Bild: IM Imagery - stock.adobe.com)

GPUs (Graphics Processing Units) haben sich als Beschleuniger hochparalleler Arbeitslasten bewährt, vor allem im Bereich Künstlicher Intelligenz (KI) und maschinellen Lernens (ML). Durch das Auslagern von Compute-Last von der CPU auf eine GPU können Unternehmen die erforderliche Rechenzeit sowohl für das Training komplexer KI-Modelle als auch für die Inferenz drastisch reduzieren.

Jeder Cloud-Anbieter, der etwas auf sich hält, hat einen GaaS-Dienst im Repertoire. GPU-as-a-Service-Angebote (kurz: GaaS oder GPUaaS) zielen darauf ab, zusätzliche GPU-Leistung für anspruchsvolle Arbeitslasten bedarfsgetrieben – und damit kosteneffizienter und nachhaltiger – verfügbar zu machen. Diese Dienste gewähren Cloud-Nutzern den Zugriff auf leistungsstarke Grafikprozessoren für maschinelles Lernen, LLMs und andere datenintensive Anwendungen im Pay-as-you-go-Modell der Public Cloud.

Leistungsstarke GPUs sind teuer in der Anschaffung; das Cloud-Modell minimiert die Kapitalbindung und ermöglicht bedarfsgerechtes „Rightsizing“. So zahlen die Unternehmen nur für die tatsächlich genutzten Ressourcen. Frei nach dem Motto: „Geteilte Freude ist doppelte Freude“ helfen GaaS-Dienste, die Knappheit von GPU-Ressourcen zu mildern.

Valdi von Storj: ein Marktplatz für Cloud-GPUs

Der Markt für Cloud-GPUs entwickelt sich dynamisch; nichts bleibt hier lange so wie es war. Storj, der Pionier eines Blockchain-basierten dezentralen Cloud-Datenspeichers, hat im Juli 2024 die Übernahme von Valdi bekannt gegeben, einem führenden Anbieter von Cloud-GPUs für Hochleistungs-Cloud-Computing. Valdi ist ein Marktplatz für fortschrittliche Cloud-GPUs. Das Unternehmen will den Mangel an GPUs entschärfen, indem es diese begehrten Ressourcen auf Anfrage in großem Maßstab zu sehr wettbewerbsfähigen Preisen verfügbar macht.

Die Nvidia H100, der Schwergewichts-Champion unter den GPUs für künstliche Intelligenz und Hochleistungs-Computing, schlägt in der On-Demand-Bereitstellung mit 2,35 US-Dollar pro Stunde zu Buche. Nvidias Superchip GH200 (72-core Nvidia Grace CPU, 480 GB RAM und 2780 GB NVMe SSD) steht derzeit nur als eine reservierte Cloud-Ressource für 6,95 US-Dollar pro GPU pro Stunde bereit (und ist bereits nahezu ausverkauft.) Als Alternative bietet der Dienst zahlreiche GPUs von AMD an.

Der Dienst unterstützt sowohl das KI-Training als auch die Inferenz, sowohl unter Ubuntu als auch Windows, einschließlich extrem anspruchsvoller und datenintensiver Anwendungsfälle. Werkzeuge wie TensorFlow, PyTorch, Jupyter und MxNet sind auf Wunsch vorinstalliert dabei.

Zu den Vorzeigekunden von Valdi zählt die Crème de la Crème des Hochschulwesens der Vereinigten Staaten, von Caltech über Harvard University, Carnegie Mellon bis hin zu Yale. Die Standorte der GPU-Server umspannen Nordamerika, Island, Großbritannien, Europa, UAE und Indien. Mit der Übernahme von Valdi hat Storj die Gelegenheit ergriffen, holistisch zu innovieren. Durch die Integration von GPU-Ressourcen mit dem dezentralen Cloud-Speicher kann Storj eine verteilte Full-Stack-Cloud auf- und ausbauen.

GPU-beschleunigtes Computing auf AWS

AWS bietet sowohl GPU-beschleunigte EC2-Instanzen als auch einen Dienst namens Elastic GPU Service für grafikintensive Workloads. Die GPU-beschleunigten Instanzen sind spezielle EC2-Instanzen, die Nvidia- oder AMD-GPUs verwenden. Sie sind für maschinelles Lernen, Hochleistungsrechnen und grafikintensive Anwendungen optimiert. Elastic GPU Service kann GPUs bei Bedarf an EC2-Instanzen anhängen, um Workloads wie 3D-Modellierung, Bildverarbeitung und Remote-Desktops zu beschleunigen, ohne den Instanztyp zu ändern.

Nvidias neueste GPU, Blackwell B200, findet ihren Weg in alle führenden Public Clouds als ein KI-Beschleuniger.(Bild:  Nvidia)
Nvidias neueste GPU, Blackwell B200, findet ihren Weg in alle führenden Public Clouds als ein KI-Beschleuniger.
(Bild: Nvidia)

Elastic GPUs sind nicht Teil der Hardware einer Instanz. Stattdessen sind sie über eine elastische GPU-Netzwerkschnittstelle angeschlossen. Sie adressieren Anwendungsfälle, die zeitweise GPU-Leistung benötigen, die über die festgelegten Kapazitäten der betreffenden EC2-Instanz hinausgeht. Sie bieten eine kostengünstige Option für Nutzer, die nicht die volle Leistung GPU-optimierter AWS-Instanzen wie P2 und G3 in Anspruch nehmen wollen.

Bei GPUs gilt üblicherweise: Je neuer, desto besser. Darum will AWS den Nvidia GB200 Grace Blackwell Superchip und die B100 Tensor Core GPUs so schnell wie möglich einführen, um LLMs mit mehreren Billionen von Parametern zu beschleunigen. Beim „hyperskalierten Clustering“ ist im Falle von AWS von der Fähigkeit die Rede, Modelle auf Tausende von GB200 Superchips zu skalieren.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Cloud Computing

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Um die Leistung der GPUs auszureizen und die Bereitstellung vor unbefugten Zugriff auf Daten und Modellgewichte zu schützen, will AWS Nvidias GB200 mit dem Nitro-System integrieren. Der Nvidia GB200 Superchip ist die erste TEE-Fähige GPU auf dem Markt. Das AWS Nitro System ist eine Kombination aus dedizierter Hardware und einem leichtgewichtigen Hypervisor. Es verwaltet die Zuweisung von Arbeitsspeicher und CPU-Zyklen. Es stellt GPUs im Durchleitungsmodus bereit, was eine vergleichbare Leistung wie bei Bare-Metal-Systemen ermöglicht.

Vertrauliches Computing: AWS verfolgt einen holistischen Ansatz und verspricht damit sowohl Kundendaten als auch die KI/ML-Modelle schützen zu wollen.(Bild:  AWS)
Vertrauliches Computing: AWS verfolgt einen holistischen Ansatz und verspricht damit sowohl Kundendaten als auch die KI/ML-Modelle schützen zu wollen.
(Bild: AWS)

Nvidias GB200 unterstützt die physische Verschlüsselung der NVLink-Verbindungen zwischen GPUs und verschlüsselt auch die Datenübertragung von der Grace-CPU zur Blackwell-GPU. Der Elastic Fabric Adapter von AWS übernimmt dann die Verschlüsselung über Server hinweg, um verteiltes Training und Inferenz zu ermöglichen. Das AWS Nitro-System lagert I/O-Funktionen von der Host-CPU/GPU auf spezialisierte AWS-Hardware aus, um gleichzeitig eine bessere Leistung und vertrauliches Computing zu ermöglichen.

Die Integration des Nitro-Systems, der Elastic-Fabric-Adapter-Verschlüsselung und des AWS Key Management Service mit der Blackwell-Verschlüsselung bietet den Cloud-Nutzern laut Angaben von AWS eine ganzheitliche Kontrolle über ihre Trainingsdaten und Modellgewichte.

GPU-beschleunigtes Computing auf Microsoft Azure

Microsoft Azure bietet spezialisierte virtuelle Maschinen mit GPU-Optimierung, wahlweise mit GPUs von Nvidia oder von AMD (Azure N-Serie mit Radeon Instinct) in der Cloud. Diese VMs sind Teil der Azure Public Cloud und erlauben unter anderem hardwarebeschleunigtes Computing im Rahmen von Diensten wie Azure Machine Learning, Azure Synapse Analytics und Azure Kubernetes Service. Darüber hinaus kann Azure Stack Hub GPUs zu jedem bestehenden System hinzufügen. Azure Stack Hub ist eine lokale Erweiterung von Azure zur Ausführung von Azure-Diensten vor Ort.

Schnell, modular und auf Nummer Sicher: Der Nvidia GB200 Superchip ist die erste TEE-Fähige GPU auf dem Markt.(Bild:  Nvidia)
Schnell, modular und auf Nummer Sicher: Der Nvidia GB200 Superchip ist die erste TEE-Fähige GPU auf dem Markt.
(Bild: Nvidia)

Azure Synapse Analytics unterstützt im Übrigen GPU-beschleunigte Apache-Spark-Pools. Diese verwenden Nvidia-Bibliotheken und beschleunigen u.a. Datenintegration und ML-Modellbewertung. Azure Virtual Desktop kann GPU-beschleunigt rendern und kodieren, was die Anwendungsleistung und Skalierbarkeit beim Einsatz des Remote Desktop Protocols (RDP) erheblich verbessert.

Die Azure NC H100 v5-Serie virtueller Maschinen (VMs) ist eine aktuelle Ergänzung zur Azure-GPU-Familie. Diese Serie eignet sich für Azure Applied AI-Training und Batch-Inferenz-Workloads. Die NC H100 v5-Serie virtueller Maschinen wird von Nvidia H100 NVL-GPUs und AMD EPYC Genoa-Prozessoren der 4. Generation angetrieben.

Die NC-Serie der VMs von Microsoft unterstützt die Nvidia Multi-Instance-GPU-Technologie (MIG), die es Kunden ermöglicht, jede GPU in bis zu sieben Instanzen für verschiedene KI-Workloads zu partitionieren. Microsoft arbeitet mit Nvidia zusammen, um Nvidias Grace Blackwell GB200 Superchips und Nvidias fortschrittliche Netzwerktechnologie Quantum-X800 InfiniBand auf Azure verfügbar zu machen. Diese Lösungen unterstützen Modelle mit Billionen von Parametern für die Verarbeitung natürlicher Sprache, Computer Vision und Spracherkennung. Microsoft will darüber hinaus Dienste von Nvidias Entwicklungsplattform DGX Cloud anbieten.

GPU-gestütztes „Hypercomputing“ in der Google Cloud

Google Cloud bietet einen Elastic GPU Service (EGS) und eine breite Palette von dedizierten, GPU-beschleunigten Instanzen der Google Compute Engine. Diese beiden Angebote erfüllen unterschiedliche Aufgaben. Elastic GPUs ermöglichen das Anhängen von GPUs an vorhandene VM-Instanzen, ohne den Instanztyp zu ändern. Hier lassen sich die GPU-Ressourcen nach Bedarf anpassen.

Nvidia HGX Plattform trumpft durch Modularität – perfekt für eine Cloud-Bereitstellung in Hyperscale.(Bild:  Nvidia)
Nvidia HGX Plattform trumpft durch Modularität – perfekt für eine Cloud-Bereitstellung in Hyperscale.
(Bild: Nvidia)

Dedizierte GPU-Instanzen kommen im Gegensatz dazu vorinstalliert mit GPU-optimierten VMs daher und sind für spezifische Workloads konzipiert, von KI/ML über Datenanalyse bis hin zu HPC. Die unterstützten GPUs beinhalten Nvidia Tesla M40, Nvidia Tesla V100, Nvidia Tesla P4, Nvidia Tesla P100 und AMD FirePro S7150.

Auch Google lässt sich Nvidias Blackwell-Plattform nicht entgehen. Google Cloud-Kunden erhalten Zugriff auf VMs mit Nvidia HGX B200 und GB200 NVL72 GPUs für die leistungshungrigsten AI-Workloads und massive Modelltrainings. Das Exascale-System Nvidia GB200 NVL72 kombiniert 72 Grace-Blackwell-GPUs und 36 Grace-CPUs, die über NVLink mit der Cloud-Infrastruktur von Google verbunden werden. Die Systeme werden über die DGX Cloud verfügbar sein, eine KI-Plattform für LLMs mit serverloser Entwicklererfahrung. Nvidia NIM, die Inferenz-Mikrodienste der Nvidia AI Enterprise Software-Plattform, will Google in die Google Kubernetes Engine (GKE) integrieren.

Oracle Cloud Infrastructure (OCI) – GPU-beschleunigte Instanzen

OCI Compute von Oracle Cloud Infrastructure bietet Bare-Metal und VM-Instanzen mit GPU-Beschleunigung für KI/ML, Big Data und Simulationen. Aktuelle Neuerungen umfassen unter anderem die Nvidia H100 und Nvidia Tesla L40S, einen KI-Beschleuniger der HPC-Klasse.

Oracle positioniert sich damit als Anbieter für Hochleistungs-Computing in der Cloud. Die nahtlose Integration mit anderen Oracle-Diensten macht OCI zu einer attraktiven Option für bestehende Oracle-Kunden.

Weitere spezialisierte Anbieter

Paperspace (by Digital Ocean) ist bekannt für seine benutzerfreundliche Plattform, die leistungsstarke GPU-Ressourcen bereitstellt. Paperspace bietet eine Vielzahl von GPU-Optionen, darunter die Nvidia A100 GPUs, und ist besonders beliebt bei Entwicklern und Start-ups, die rechenintensive Anwendungen wie maschinelles Lernen, Datenanalyse und Simulationen ausführen möchten. Die Plattform ist für ihre einfache Handhabung und schnelle Bereitstellung von GPU-Instanzen bekannt.

Hostkey hat sich durch wettbewerbsfähige Preise und maßgeschneiderte Lösungen einen Namen gemacht. Der Dienst richtet sich an Unternehmen, die nach kosteneffizienten und leistungsstarken GPU-Lösungen suchen. Die aktuelle Auswahl von GPUs umfasst Nvidia RTX 4090, RTX 4000 und RTX A5000. Hostkey mag nicht mit den größten und teuersten GPUs punkten können, dafür überzeugt der Dienst durch Pragmatismus und Flexibilität.

Der europäische Anbieter OVHcloud und Nvidia haben sich zusammengeschlossen, um „die beste GPU-Beschleunigungsplattform, optimiert für Deep Learning und Hochleistungs-Computing“ zu liefern. Die Nvidia GPU Cloud (NGC) von OVHcloud kombiniert die Flexibilität der Public Cloud mit der Leistung der Nvidia Tesla V100-GPU und OpenStack-APIs. Ein umfassender Katalog von GPU-beschleunigten Containern deckt Anwendungsfälle der künstlichen Intelligenz und maschinellen Lernens, Bildverarbeitung und wissenschaftliche Simulationen ab.

Teuer und anspruchsvoll

Trotz des Wegfalls der Kapitalbindung im Cloud-Modell sind die Dienste nicht billig. Die laufenden Kosten für die Nutzung von GPUs in der Cloud können insbesondere bei langfristigen Projekten oder konstant hohem Bedarf unterm Strich doch erheblich ins Gewicht fallen.

Die Nutzung von Cloud-Diensten führt zudem zu einer gewissen Abhängigkeit von den Besonderheiten des jeweiligen Anbieters. Änderungen in den Preisstrukturen oder Serviceangeboten können sich sehr kurzfristig auf die Kosten und damit auf die Geschäftsabläufe auswirken.

Die Optimierung von GPU-Beschleunigern in der Cloud erfordert unter anderem spezialisierte Kenntnisse der GPU-Partitionierung. Unternehmen müssen sicherstellen, dass sie über das entsprechende Know-how verfügen, um die Vorteile dieser Technologie voll ausschöpfen zu können, ohne sich Hals über Kopf in Unkosten zu stürzen.

Fazit der Autoren

Cloud-GPUs bieten sich als Beschleuniger rechenintensiver hochparalleler Cloud-Arbeitslasten an. Sie erlauben es Unternehmen, flexibel auf steigende Anforderungen zu reagieren, ohne teure Hardware erwerben zu müssen.

* Das Autorenduo Anna Kobylinska und Filipe Pereia Martins arbeitet für McKinley Denali, Inc., USA.

(ID:50138884)