Cloud-Infrastruktur für KI-Anwendungen Graphcore und Cirrascale bauen die Graphcloud

Redakteur: Ulrike Ostler

Graphcore, Hersteller einer Intelligence Processing Unit (IPU), verwirklicht zusammen mit Cirrascale Cloud Services, Anbieter öffentlicher und privater Cloud-Dienste für Deep-Learning-Workflows, ein „Mk2 IPU-POD Scale-Out-Cluster“.

Firma zum Thema

Der Bedarf an HPC- und KI-Ressourcen steigt. Weil eine hohe Dichte und spezielle Akzeleratoren notwendig sind, um die erforderliche Hardwareleistung zu erbringen, will oder kann sich nicht jedes Unternehmen eine eigene passende Aussattung zulegen. Hier setzt das Graphcloud-Angebot an.
Der Bedarf an HPC- und KI-Ressourcen steigt. Weil eine hohe Dichte und spezielle Akzeleratoren notwendig sind, um die erforderliche Hardwareleistung zu erbringen, will oder kann sich nicht jedes Unternehmen eine eigene passende Aussattung zulegen. Hier setzt das Graphcloud-Angebot an.
(Bild: Grapcore)

Dieses soll Kunden ermöglichen, KI-Rechenkapazität nach Bedarf abzurufen, ohne dass ein eigenes Rechenzentrum betrieben werden muss. Graphcloud soll ein sicherer und zuverlässiger Cloud-Service der IPU-POD-Produktserie sein, mit dem Kunden auf die Leistungsfähigkeit der Intelligence Processing Unit (IPU) von Graphcore zugreifen können, während sie von Experimenten über Proof-of-Concept- und Pilotprojekten hin zu größeren Fertigungssystemen skalieren.

Denn nicht nur die Möglichkeiten, die Künstliche Intelligenz bietet, wachsen, sondern auch die Herausforderungen für das Computing. Die IPU-Systeme adressieren als integrierte Hardware-und Softwaresysteme, die speziell für KI-Workloads entwickelt wurden, sowohl die Tatsache, dass die Modelle wachsen und zugleich eine immer bessere Genauigkeit fordern. Nach Herstellerangaben bieten IPU-POD-Systeme im Vergleich zu jüngsten GPU-Systemen geringere Gesamtkosten für das Training und kürzere Zeiten bis zur Lösung.

Zum Start der Graphcloud stehen zwei Angebote bereit.

  • IPU-POD16 – mit 4 PetaFLOPS KI-Rechenleistung (16 GC200 IPUs in 4 IPU-M2000s)
  • IPU-POD64 – mit 16 PetaFLOPS KI-Rechenleistung (64 GC200 IPUs in 16-IPU-M2000s)

Das Graphcore-Server-Rack „IPU-POD64“
Das Graphcore-Server-Rack „IPU-POD64“
(Bild: Graphcore)

Beide Systeme nutzen die Vorteile der IPU-Fabric-Interconnect-Architektur von Graphcore. Jede IPU-POD64-Instanz wird von vier „Dell R6525“-Host-Servern mit Dual-Socket „AMD EPYC2“-CPUs unterstützt, wie sie auch in leistungsstärksten lokalen KI-Rechenzentren verwendet werden, während jede IPU-POD16 über einen dedizierten Server mit derselben Spezifikation verfügt:

  • 16 TB sicherer lokaler NVMe-Speicher für IPU-POD64 und 4 TB für IPU-POD16
  • Jede IPU-POD64 bietet 57,6 GB prozessorinternen Speicher und 2048 Gigabyte Streaming-Speicher (32 x 64GB DIMMs)
  • Jede IPU-POD16 bietet 14,4 GB prozessorinternen Speicher und 512 Gigabyte Streaming-Speicher (8 x 64GB DIMMs)

In den kommenden Monaten werden größere Scale-Out-Systeme hinzugefügt.
In den kommenden Monaten werden größere Scale-Out-Systeme hinzugefügt.
(Bild: Graphcore)

Graphcloud-Systeminstanzen sind mit „Poplar“ und Systemsoftware vorinstalliert. Beispielcode und Anwendungsbeispiele sind lokal für die in den Graphcore-Benchmarks genutzten Modelle verfügbar, einschließlich BERT und Efficientnet. Nutzer haben ferner Zugriff auf umfassende Dokumentation, um einen schnellen Einstieg in mehrere Frameworks wie „Pytorch“ und „Tensorflow“ zu ermöglichen.

Die Kundenreferenz

Welche Kundschaft Cirrascale Cloud Services mit dem Angebot adressieren will, verrät PJ Go, CEO von Cirrascale Cloud Services, in seinem Kommentar zum Grpahcloud-Start: „Cirrascale ist stolz auf die strategische Zusammenarbeit mit Graphcore, die die Ära der cloud-basierten Lösungen für maschinelles Lernen weiter vorantreiben, um bei einigen der spannendsten Fortune-500-Unternehmen einen kommerziellen Einsatz in großem Maßstab zu erreichen.“

Für ein Exascale Computing lassen sich bis zu 64.000 IPUs in IPU-POD-Konfigurationen miteinander verbinden.
Für ein Exascale Computing lassen sich bis zu 64.000 IPUs in IPU-POD-Konfigurationen miteinander verbinden.
(Bild: Graphcore)

Einer der ersten Kunden, der Graphcloud einsetzt, ist das britische Unternehmen Healx, dessen KI-Plattform zur Medikamentenforschung neue Behandlungsmethoden für seltene Krankheiten identifiziert. Das Unternehmen wurde bei den „AI Awards 2019“ mit dem Preis „Best Use of AI in Health and Medicine“ ausgezeichnet.

Dan O’Donovan, Technischer Leiter, Machine Learning Engineering bei Healx, berichtet: „Wir haben Ende Dezember 2020 damit begonnen, einen IPU-POD16 in der Graphcloud zu verwenden und unseren bestehenden Mk1-IPU-Code auf das Mk2-System zu portieren. Es war ein reibungsloser Prozess, der einen enormen Leistungsvorteil brachte. Da mehr Speicher für unsere Modelle zur Verfügung stand, mussten wir unser Modell nicht mehr sharden und konnten uns stattdessen auf das Sharding unserer Daten konzentrieren. Dies führte zu einem einfacheren Code und effizienteren Modelltraining.“

(ID:47106825)