Kompromisslose Rechenleistung mit Trainium, Graviton & Co. Hardwarebeschleuniger für datenhungrige Cloud-Anwendungen

Von Filipe Pereira Martins und Anna Kobylinska* 10 min Lesedauer

Anbieter zum Thema

Software-Intelligenz braucht leistungsstarke Hardware und Konnektivität der Extraklasse. Ob KI, Machine Learning, Bitcoin-Mining oder High Performance Computing (HPC) – eine Sache ist klar: Das bessere Silikon hat auch in der Cloud stets die Nase vorne.

Praxisnahe Nutzungsszenarien für datenhungrige Anwendungen stellen ganz eigene Anforderungen an die Leistungsparameter der IT-Infrastrukturen.(Bild:  darealmop - stock.adobe.com)
Praxisnahe Nutzungsszenarien für datenhungrige Anwendungen stellen ganz eigene Anforderungen an die Leistungsparameter der IT-Infrastrukturen.
(Bild: darealmop - stock.adobe.com)

Auf der diesjährigen AWS re:Invent in Las Vegas, dem Stell-dich-ein der globalen Cloud-Computing-Gemeinde, rückte das Thema Performance ganz deutlich in den Mittelpunkt. Nur wenige Tage zuvor machte Microsoft Azure auf der SC22 mit seinen HBv4-Instanzen von sich reden.

Es sei nicht schwierig, die Leistung von Cloud-Arbeitslasten zu verbessern, wenn man beliebig viel Geld um sich werfen könne oder wenn man bereit sei, in Sachen Sicherheit kürzer zu treten, erklärte in seiner Keynote Peter DeSantis, Senior Vice President of AWS Utility Computing, insbesondere. Da AWS solche Kompromisse nicht eingehen wollte, habe man gut überlegen müssen. Die Resultate können sich sehen lassen. Auf der Konferenz stellte AWS unter den hauseigenen Chip-Markennamen Graviton, Trainium und Inferentia drei neue Hardwarebeschleuniger vor, die in drei neuen EC2-Instanzen zu Ehren kommen.

Netzwerkbeschleuniger AWS Nitro v5

„Wie können wir die Leistung verbessern und gleichzeitig die Sicherheit erhöhen und auch noch die Kosten senken?“ sei die Aufgabestellung gewesen, enthüllte DeSantis. AWS habe die Antwort gefunden. Der Hyperscaler hat auf der re:Invent 2022 unter anderem eine neue Generation seines Netzwerk­beschleunigers vorgestellt: AWS Nitro v5. Der Chip stammt aus der Feder der AWS-Tochter Annapurna Labs.

Die neue Generation, AWS Nitro v5, verfügt über die doppelte Anzahl von Transistoren, eine doppelt so schnelle PCIe-Schnittstelle und ein um 50 Prozent schnelleres DRAM im Vergleich zu ihrem Vorgänger. Damit bringt der Chip einen erheblichen Performance-Sprung auf die Reihe. Nitro v5 kann um 60 Prozent mehr Datenpakete pro Sekunde (pps) verarbeiten und bietet zugleich eine um 30 Prozent geringere Latenz und eine um 40 Prozent verbesserte Performance pro Watt.

Auf der re:Invent 2022 in Las Vegas stellte AWS eine ganze Reihe ausgefuchster Hardwarebeschleuniger vor, von Nitro v5 über Graviton3E bis hin zur zweiten Generation von Trainium.(Bild:  AWS)
Auf der re:Invent 2022 in Las Vegas stellte AWS eine ganze Reihe ausgefuchster Hardwarebeschleuniger vor, von Nitro v5 über Graviton3E bis hin zur zweiten Generation von Trainium.
(Bild: AWS)

Das Nitro-System sei der Grund gewesen, warum AWS den Bau eigener Chips überhaupt gewagt habe, enthüllte DeSantis. In dem sogenannten Nitro-Controller, der „Geheimsauce“ von AWS, ticken schon seit beinahe zehn Jahren „selbstgemachte“ AWS-Chips. Jeder neue EC2-Instanzyp seit 2014 nutzt Nitro-Hardware­beschleuniger­karten, um den „Cloud-internen“ AWS-Code auszuführen und andere Nitro-Karten anzusteuern, darunter den Server-Hypervisor und den Nitro Security Chip, der unter anderem mit der sicheren Ausführungsumgebung Nitro-Enclaves für erhöhten Datenschutz sorgt. Nitro eliminiert den Virtualisierungs-Overhead und verbessert nebenbei die Sicherheit.

Nitro hilft den Instanzen in Sachen Leistung auch noch anderweitig auf die Sprünge. Die Netzwerk- und Speichervirtualisierung auf dem Nitro-Controller reduziert Leistungsschwankungen, erhöht die Auslastung und senkt den Energieaufwand des EC2-Betriebs. Doch bei datenhungrigen Anwendungen kommt Nitro allein doch zu kurz.

AWS C7gn für netzwerklastige Workloads

Nitro v5 debütiert in einer neuen EC2-Instanz namens AWS C7gn mit Graviton3E, einer neuen Edition des AWS-eigenen Prozessors. (Graviton ist eine von drei Prozessoroptionen in EC2-Instance-Typen für allgemeine, rechenoptimierte, arbeitsspeicheroptimierte und datenspeicheroptimierte Anwendungsfälle).

Amazons C7gn-Instanzen sind für die anspruchsvollsten netzwerkintensiven Arbeitslasten konzipiert. Dieser Instanztyp kann virtuelle Netzwerk-Appliances wie Firewalls, virtuelle Router und Load Balancer ausführen, meistert aber auch Datenanalyse und eng gekoppelte Cluster-Computing-Aufgaben. Diese Instanzen unterstützen eine Netzwerkbandbreite von bis zu 200 Gbit/s. Amazon will die c7gn-Instanzen in verschiedenen Größen mit bis zu 64 vCPUs und 128 GiB Speicher anbieten. Vorerst müssen sich interessierte Benutzer unter diesem Link für eine Probefahrt anmelden.

Cloud-Chips für Tiefes Lernen

Praxisnahe Nutzungsszenarien für datenhungrige Anwendungen stellen ganz eigene Anforderungen an die Leistungsparameter der IT-Infrastrukturen. Diese begehrenswerten Eigenschaften resultieren nicht vorrangig aus der Notwendigkeit, wachsende Datenmengen zu verarbeiten – dafür gibt es ja die Parallelisierung. Auch mit der reinen Latenzoptimierung ist noch nichts gewonnen, denn so „eilig“ ist es meist nun auch nicht. Ein gutes Beispiel dafür sind wissenschaftliche Berechnungen; die Nutzer sind meist bereit, in gute Resultate etwas Wartezeit zu investieren.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Cloud Computing

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Parallele Datenverarbeitung ist ein Aspekt der Skalierbarkeit; hier kann die Cloud eh besonders stark punkten. In Sachen Latenzoptimierung gilt die Edge als der bevorzugte Standort der Inferenzphase tiefer neuronaler Netze in echtzeitnahen KI-Anwendungen wie dem autonomen Fliegen oder Fahren.

Die Cloud kann ihre Stärken vielmehr dort ausspielen, wo aus massiven Datenmengen ein Mehrwert entsteht, also zum Beispiel in der Lernphase von KI-Modellen. Hier kommt es nicht ausschließlich auf die Geschwindigkeit, sondern vielmehr auf die „Tiefe“ an. Denn der Wert der Erkenntnisse, die sich aus massiven Mengen an Rohdaten gewinnen lassen – konkret also zum Beispiel die Genauigkeit von Wettervorhersagen – steigt mit der Anzahl der Variablen, die ein Modell gleichzeitig handhaben kann. Cloud-native Skalierbarkeit ist hierzu unumgänglich, doch mit steigender Anzahl von Variablen fällt die Leistung ins Bodenlose.

Vor diesem Hintergrund wagte AWS auf der re:Invent in Las Vegas einen Markteintritt in High Performance Computing (HPC) mit einer neuen Generation hardwarebeschleunigter Cloud-Lösungen.

HPC in der Cloud mit Graviton3E

Graviton3E ist eine neue Version des AWS-eigenen ARM-basierten Prozessors Graviton3 für HPC-Arbeitslasten (High Performance Computing). In dieser Edition bietet der Chip eine um 35 Prozent verbesserte Leistung bei Vektoroperationen. Für eben jene Workloads hat AWS einen neuen EC2-Instanztyp namens Hpc7G konzipiert.

Hpc7G-Instanzen sollen ab etwa Anfang des Jahres 2023, wie von AWS gewohnt, in mehreren Ausbaustufen erhältlich sein. Der leistungsstärkste Instanztyp soll mit 64 vCPUs und 128 GiB Speicher auftrumpfen können. Instanzen dieses Typs spendierte AWS einen eigenen Netzwerkkontroller, den sogenannten Elastic Fabric Adapter. Die EFA bietet dieselben Features wie die ENA (Elastic Network Adapter) zuzüglich der Fähigkeit, das Betriebssystem zu umgehen.

Bei diesem Kontroller handelt es sich um eine Netzwerkschnittstelle für Amazon EC2-Instanzen, die es Kunden ermöglicht, Anwendungen, deren Leistung in einem hohen Maße von Interknotenkommunikation abhängt, auf AWS zu skalieren.

Der Netzwerkbeschleuniger ENA Express soll die Performance von Cloud-Diensten wie dem AWS ElastiCache verbessern.(Bild:  AWS)
Der Netzwerkbeschleuniger ENA Express soll die Performance von Cloud-Diensten wie dem AWS ElastiCache verbessern.
(Bild: AWS)

Der EFA ist eine speziell von AWS entwickelte Hardware-Schnittstelle, welche das Betriebssystem der betreffenden Instanz umgeht, um die Netzwerkleistung für die Kommunikation zwischen Instanzen zu verbessern und so die reibungslose Skalierbarkeit von Cloud-nativen Anwendungen zu erleichtern. Mit EFA können HPC-Anwendungen, die das Message Passing Interface (MPI) verwenden, und ML-Anwendungen, die Nvidias Collective Communications Library (NCCL) nutzen, auf Tausende von CPUs oder GPUs skalieren. So erhalten Cloud-Nutzer die Anwendungsleistung von HPC-Clustern vor Ort mit der bedarfsgerechten Elastizität und Flexibilität der AWS-Cloud.

EFA ist als eine optionale EC2-Netzwerkfunktion verfügbar. AWS-Nutzer können sie für jede unterstützte EC2-Instanz (allerdings nur unter Linux) ohne zusätzliche Kosten aktivieren. EFA funktioniert mit den am häufigsten verwendeten Schnittstellen, APIs und Bibliotheken für die Kommunikation zwischen Rechenknoten, darunter OpenMPI und Intel MPI, zusätzlich zu Nvidias NCCL. Dies soll Unternehmen ermöglichen, bestehende HPC-Anwendungen mit wenigen oder gar keinen Änderungen in die AWS-Cloud zu migrieren.

Hardwarebeschleunigt: Leistung eines EC2-Clusters mit und ohne EFA bei der Simulation computergestützter Fluiddynamik (CFF).(Bild:  AWS)
Hardwarebeschleunigt: Leistung eines EC2-Clusters mit und ohne EFA bei der Simulation computergestützter Fluiddynamik (CFF).
(Bild: AWS)

Mit seinen HP-Instanzen Hpc7G adressiert AWS Anwendungen wie die Wettervorhersage sowie Arbeitslasten in Life-Sciences und dem industriellen Ingenieurwesen, für die die Cloud bisher zu träge war. Bei dem Design der Chips konnte AWS auf über ein Jahrzehnt eigener Praxiserfahrung mit selbstentwickelten Chips zurückgreifen.

AWS Trainium und die Trn1

Das Trainieren von ML-Modellen stößt im Gegensatz zu anderen (Cloud-nativen) Workloads im Cloud-Computing auf zahllose Engpässe. Leistungsoptimierungen in der Cloud sind bei diesen Arbeitslasten eine harte Nuss. Denn es genügt nicht, den vermeintlich größten Engpass zu beheben, um eine Leistungssteigerung zu erzielen; es müssen vielmehr alle Engpässe gleichzeitig beseitigt werden, um die begehrte Konvergenz – also der Zeitpunkt, ab dem weiteres Training die Genauigkeit nicht mehr zu verbessern mag – schneller zu erzielen.

AWS begegnet dieser Herausforderung mit Hardware, die speziell für maschinelles Lernen konzipiert wurde. Auf der re:Invent 2022 in Las Vegas hat AWS EC2-Instanzen der Trn1-Familie für den Einsatz in Amazon EC2 vorgestellt. Diese neuen VMs werden mit den neuen hauseigenen Trainium-Chips betrieben. Trn1-Instanzen sind für die Trainingsphase von ML-Modellen konzipiert und laufen dank der EFA-Netzwerkschnittstelle von AWS mit diesen Workloads zur Höchstleistung auf. Gleichzeitig erlauben sie Einsparungen von bis zu 50 Prozent gegenüber vergleichbaren GPU-basierten EC2-Instanzen.

Der neue Trainium-Chip ist die zweite Generation der vor zwei Jahren vorgestellten ARM-Prozessoren für maschinelles Lernen. Jede Amazon EC2 Trn1-Instanz kann bis zu 16 dieser Beschleuniger beinhalten, um ein leistungsstarkes System für das Trainieren tiefer neuronaler Netze in der Cloud kostengünstig bereitzustellen. Trn1-Instanzen sind die ersten, die eine Netzwerkbandbreite von bis zu 800 Gbit/s, eine geringere Latenz und eine doppelt so hohe Rechenleistung bieten wie die schnellsten GPU-basierten Instanzen auf AWS.

Softwareseitig verwenden die Trn1-Instanzen AWS Neuron, das neue SDK von Amazon, welches Unternehmen den Einstieg mit nur minimalen Codeänderungen ermöglicht und in beliebte Open-Source-Frameworks für maschinelles Lernen wie PyTorch und TensorFlow integriert ist.

Training ist schön, nur wie steht es dann mit der Inferenz? Auch dafür hat AWS einen Chip parat: den AWS Inferentia in den neuen EC2-Instanzen Inf1.

Cloud-Hyperscaler auf der Suche nach kompromissloser Leistung

Auch die anderen beiden führenden Cloud-Hyperscaler, Microsoft und Google, brauchen sich in Sachen Cloud-Hardwarebeschleuniger nicht zu verstecken. Google konnte mit seiner TPU die Leistung einer CPU bei KI-Arbeitslasten um das Fünfzehn- bis Dreißigfache übertreffen. Googles Cloud-GPUs umfassen Nvidia K80, P100, P4, T4, V100 und die Nvidia Ampere-A100 -GPUs (in den A2-VMs für ML und HPC). Aber in Sachen Konnektivität gab es bisher an Hardwarebeschleunigern nicht viel zu sehen.

In Zusammenarbeit mit Intel hat Google mit dem E2000, Codename Mount Evans, endlich einen eigenen Netzwerkbeschleuniger-Chip entwickelt, der hochperformante und sichere Konnektivität ermöglichen soll. Der E2000 soll Datenpakete für die Übertragung via Netzwerk aufbereiten. Diese Aufgabe müssen ansonsten teure CPUs bewältigen, was der verfügbaren Leistung für die primären Berechnungen zu Lasten fällt. Google will mit dem Chip in erster Linie latenzkritische Bare-Metal-Instanzen aufwerten.

Der E2000 soll ähnlich wie die ARM-Chips auf dem Nitro-Controller von AWS sowohl die Leistung als auch die Sicherheit von Arbeitslasten verbessern. Googles E2000 bietet nämlich eine Isolation des Netzwerkverkehrs auf Systemen mit gemeinsam genutzten Rechenressourcen.

Google hatte zuvor bereits mit anderen anwendungsspezifischen Chips anderen Hyperscalern den Weg gezeigt. Googles Portfolio von Hardwarebeschleunigern umfasst inzwischen neben der schon legendären die TUP (Tensor Processing Unit, ein ASIC für KI-Arbeitslasten) unter anderem die VCU (Video Coding Unit) Argos für das Encoding von Videos auf YouTube und den Sicherheitschip Titan.

Der E2000 soll in einer C3 VM als Netzwerkbeschleuniger zu Ehren kommen – und Intels Xeon-Prozessoren der vierten Generation (die Sapphire Rapids) um eben diese Aufgaben entlasten. Die Markteinführung der CPU hat Intel im Übrigen aufgeschoben (doch aufgeschoben ist nicht aufgehoben).

HPC in der Azure Cloud

Zu den Global Playern im HPC-Markt zählen überwiegend Unternehmen, die auch eigene Hardware anbieten, wie beispielsweise AMD, HPE, Intel, NEC, Fujitsu, Dell Technologies, Dassault Systèmes, Lenovo, AWS und Nvidia.

Doch interessanterweise will jetzt auch Microsoft mit Cloud-HPC eine zukunftsträchtige Nische mit Wachstumspotenzial für sich gefunden haben. Microsoft hat schon früh erkannt, dass HPC auch in der Cloud Realität werden könnte, und hat eine Infiniband-gestützte Infrastruktur mit High-End-Rechenknoten aufgebaut, um HPC Leben einzuhauchen. Jetzt legt das Unternehmen nach.

Auf der SC22 im texanischen Dallas, der internationalen Konferenz für Hochleistungsrechner, Netzwerke, Storage und Analytics (International Conference for High Performance Computing, Networking, Storage, and Analysis), die Ende November 2022 im texanischen Dallas stattfand, hatte Microsoft einige High-End-Hardware-Schmankerl für die Azure Cloud im Gepäck. Der Cloud-Riese aus Redmond setzt also nun verstärkt auf hardwarebeschleunigte Cloud-Lösungen.

AMD EPYC Genoa der HBv4-Instanz

AMDs EPYC 9004 Genoa werkelt in Microsofts neuer HBv4-Instanz. Den Azure-Cloud-Beschleuniger gab es auf der SC22-Supercomputing-Konferenz im November 2022 zu bewundern.(Bild:  AMD)
AMDs EPYC 9004 Genoa werkelt in Microsofts neuer HBv4-Instanz. Den Azure-Cloud-Beschleuniger gab es auf der SC22-Supercomputing-Konferenz im November 2022 zu bewundern.
(Bild: AMD)

Mit HPC im Blick hat Microsoft neue Cloud-Instanzen des Typs HBv4 auf der Basis der AMD EPYC 9004 Genoa entworfen. Auf der SC22 gab es diese Systeme zum Anfassen. Neben dem gigantischen Kühlkörper des AMD-Prozessors EPYC 9004 Genoa gab es auch ein massives OAM-Gehäuse (Operations, Administration und Maintenance) zu bewundern. Der Kühlkörper von AMD EPYC 9004 verfügt über riesige Heatpipes, die von beiden CPUs ausgehen, und nimmt fast über die gesamte Gehäusebreite für sich in Anspruch.

Nvidia kündigte auf der SC22 die breite Einführung seiner H100-Tensor-Core-GPUs und Nvidia Quantum-2, die siebte Generation der Nvidia InfiniBand-Architektur, an. Diese Hardware soll bald in Microsoft Azure Eingang finden. Über 50 Ökosystempartner von Nvidia wollen sie in ihre Systeme integrieren; einige davon gab es bereits auf der SC22 im texanischen Dallas zu sehen.

Nvidias H100 Tensor Core GPUs von Nvidia „reden“ miteinander in Microsofts Cloud Azure über Quantum-2-Infiniband.(Bild:  Nvidia)
Nvidias H100 Tensor Core GPUs von Nvidia „reden“ miteinander in Microsofts Cloud Azure über Quantum-2-Infiniband.
(Bild: Nvidia)

Nvidia hatte dazu auch schon passende Updates für die cuQuantum-, CUDA- und BlueField- DOCA-Beschleunigungsbibliotheken. Die Omniverse-Simulationsplattform ist jetzt auf Nvidia A100- und H100-betriebenen Systemen lauffähig. H100, Quantum-2 Infiniband-Plattform und die Bibliotheks-Updates sind alle Teil der HPC-Plattform von Nvidia. Es handelt sich hierbei um einen kompletten Technologie-Stack mit CPUs, GPUs, DPUs und anderen Systemkomponenten samt Konnektivität und einer breiten Palette an KI- und HPC-Software.

Fazit der Autoren

Die neueste Generation von Hardwarebeschleunigern der führenden Hyperscaler hebt das Cloud-Computing auf ein völlig neues Leistungsniveau. Bei der Wahl hardwarebeschleunigter Dienste zum Ausführen ihrer Anwendungen haben Cloud-Nutzer jetzt endlich die Qual der Wahl.

* Das Autorenduo Anna Kobylinska und Filipe Pereia Martins arbeitet für McKinley Denali Inc. (USA).

(ID:49017179)