WAN-Optimierung als Basis für Transfer großen Datenmengen

Big Data über große Entfernungen hinweg nutzen

Seite: 3/4

Firmen zum Thema

Die Rolle von Hadoop

Ein Schlüsselelement im Bereich Big Data ist Hadoop. Dieses Framework wurde von der Apache Software Foundation entwickelt. Hadoop erlaubt es, große Datenbestände im Petabyte-Bereich und höher auf Rechner-Clustern zu verarbeiten. Das Hadoop Distributed File System (HDFS) teilt große Datenblöcke in kleinere Teile auf, die auf die Nodes eines Clusters verteilt und dort bearbeitet werden. Jedes Datensegment auf mehreren Rechnern und Storage-Systemen repliziert, damit der Bearbeitungsprozess auch bei Ausfall eines Systems weiterläuft.

Für viele IT-Fachleute sind die Analyse und das Speichern von Daten im Rahmen von Big Data die größten Herausforderungen. Häufig unterschätzt wird jedoch, dass diese Daten über Netzwerkverbindungen transportiert werden müssen, speziell WAN-Links. Ein Konzept wie Hadoop funktioniert nur dann, wenn die Daten zwischen den einzelnen Cluster-Knoten schnell und zuverlässig übermittelt werden.

Mehr Bandbreite ist keine Lösung

Eine der Voraussetzungen dafür ist eine ausreichende Bandbreite. Nach Erfahrungswerten von Silver Peak Systems erweitert ein Großunternehmen im Durchschnitt alle zwei Jahre die Kapazität der WAN-Links im Corporate Network. Der Grund: Die Datenvolumina wachsen jedes Jahr stark an, ebenso der Bedarf an Weitverkehrsverbindungen, die Echtzeitanwendungen unterstützen, etwa Voice und Video over IP, Datenreplizierung oder der Zugriff auf Echtzeit-Datenbanken und virtualisierte Desktops durch Mitarbeiter in Außenstellen.

Das Erweitern der WAN-Kapazität hat für ein Unternehmen jedoch gravierende Nachteile. Zum einen treibt es die Kosten in die Höhe. Zum anderen ist mehr Bandbreite keine Lösung für andere Probleme. Vor allem in Weitverkehrsnetzen auf Basis von Multi-Protocol Label Switching (MPLS), die sich mehrere Nutzer teilen, sowie in Cloud-Computing-Umgebungen gehen häufig Datenpakete verloren (Packet Loss) oder gehen am Empfangsort in der falschen Reihenfolge ein. Zudem ist die Erhöhung der WAN-Bandbreite kein Garant für niedrigere Latenzzeiten.

So sinkt nach Untersuchungen von Silver Peak Systems der Datendurchsatz einer WAN-Verbindung von 45 MBit/s auf weniger als 5 MBit/s, wenn die Paketverlustrate bei 0,75 Prozent liegt. Dieses Phänomen tritt auch dann auf, wenn WAN-Links mit einer größeren Kapazität eingesetzt werden, beispielsweise 100-MBit/s-Leitungen.

WAN-Optimierung reduziert Datenaufkommen um bis zu 95 Prozent

Ein wichtiger Faktor bei Big Data ist eine möglichst schnelle Analyse und Aufbereitung der Daten. Das setzt WAN-Verbindungen zwischen Hadoop-Clustern voraus, die ausreichend Bandbreite, geringe Verzögerungszeiten und niedrige Paketverlustraten bieten. Das lässt sich derzeit nur mit WAN-Optimierungslösungen erreichen. Sie verringern die Datenmengen, die über WAN-Links übermittelt werden um bis zu 95 Prozent. Dies erfolgt durch zwei Verfahren: Zum einen kommt Datenkompression zum Einsatz, zum anderen eine festplattenbasierte Datendeduplizierung, also das Ausfiltern von mehrfach vorhandenen Daten. Die Daten werden dabei vor der Übermittlung durch Pointer (Zeiger) ersetzt, die auf bereits übermittelte Datenpakete im Cache-Speicher des Optimierungssystems verweisen. Statt der Datenpakete werden nur die Pointer über WAN-Leitung übertragen werden.

Das Deduplizierungsrate lässt sich erhöhen, wenn in den WAN-Optimierungssystemen an beiden Endpunkte einer WAN-Verbindung Festplatten oder Solid State Drives (SSDs) eingesetzt werden. Diese Laufwerke dienen als lokale Zwischenspeicher für Datenpakete. Trifft bei einem WAN-Optimierungssystem ein Pointer ein, der auf bestimmte Datenpakete im Zwischenspeicher verweist, speist die WAN-Appliance die entsprechenden Pakete ins lokale Netz ein.

(ID:35958840)