Suchen

Big-Data-Analyse geht auch cloud-basiert Hadoop in Windows Azure geschickt genutzt

Autor / Redakteur: Thomas Joos / Ulrike Ostler

Die bekannteste Grundlage für Big-Data-Analysen bietet die Java-basierte Open-Source-Lösung „Apache Hadoop“. Diese läuft eigentlich unter Linux und ist für Windows eher ungeeignet. Microsoft bietet trotzdem die Möglichkeit, das Produkt über „Windows Azure“, also: in der Cloud, zu buchen. Das heißt dann „HDInsight“. Wie das geht, steht hier.

Firmen zum Thema

Hadoop trifft auf Windows Azure und wird zu HDInsight.
Hadoop trifft auf Windows Azure und wird zu HDInsight.
(Bild: Microsoft/Apache Hadoop)

Aktuell befindet sich die Lösung noch in der Betaphase. Doch Interessenten können sich für einen Test eintragen. Wenn Hadoop in Windows Azure eingebunden ist, können sie die Lösung, wie Windows Azure, einige Zeit kostenlos testen.

Um Hadoop in Windows Azure auszuprobieren, benötigen Administratoren zunächst einen Test-Account bei Windows Azure (http://www.windowsazure.com/de-de). Über dieses Konto schalten sie anschließend den Hadoop-Test (http://www.windowsazure.com/en-us/manage/services/hdinsight/?fb=de-de) frei.

Die Funktion trägt in Windows Azure die Bezeichnung „HDInsight“. Nach der Anmeldung bei Windows Azure lässt sie sich in der Verwaltung des Kontos aufrufen.

Auf zur Testversion!

Abbildung 1: In den "vorschaufeatures" von Windows Azure lässt sich über HDInsight auch Hadoop frei schalten.
Abbildung 1: In den "vorschaufeatures" von Windows Azure lässt sich über HDInsight auch Hadoop frei schalten.
(Bild: Thomas Joos)
Im Bereich „vorschaufeatures“ ist die Testfunktionen von Windows Azure zu sehen, die Admins für ihr Konto freischalten können. Hier ist auch auch HDInsight zu sehen (siehe: Abbildung 1). Diese Funktion entspricht vom Funktionsumfang vollständig Hadoop.

Haben Administratoren Zugang zu HDInsight in Windows Azure, können Sie Apache Hadoop cloud-basiert nutzen. Dabei haben Sie auch die Möglichkeit auf andere Funktionen in Windows Azure zuzugreifen, zum Beispiel Datenbanken oder Speicherkonten.

Die Verwaltung und Analyse von Big Data ist auf diesem Weg auch effizient in Windows Azure über die Weboberfläche möglich. Die Analyse der Hadoop-Daten kann über „Power Pivot“, „Power View“ oder andere BI-Tools erfolgen.

Hadoop wird zu HDInsight

Abbildung 2: In der Verwaltungsoberfläche eines Hadoop-Clusters in Windows Azure verwalten Administratoren den Cluster und können ihn auch überwachen.
Abbildung 2: In der Verwaltungsoberfläche eines Hadoop-Clusters in Windows Azure verwalten Administratoren den Cluster und können ihn auch überwachen.
(Bild: Thomas Joos)
Mit HDInsight lässt sich recht einfach einen Hadoop-Cluster installieren. Außerdem können sich Anfänger auf diesem Weg in Hadoop einarbeiten, ohne selbst kompliziert einen Cluster mit eigenen Computern erstellen zu müssen.

Downloads und die Installation von Servern erübrigen sich. Die Konfiguration des Clusters erfolgt in der Windows Azure-Verwaltung. Mit dem Open Database Connectivity (ODBC)-Treiber von „Hive“ können Admins mit Office Zugriff auf Hadoop nehmen. Auch SQL Server Analysis Services (SSAS), Power Pivot und Power View sind kompatibel mit der Lösung.

Preise und Lizenzierung

Ein Hadoop-Cluster über HDInsight in Windows Azure basiert auf einem Hauptknoten und mindestens einem Server-Knoten der für die Berechnung der Daten zuständig ist. Es lassen sich auch weitere Knoten zur Berechnung hinzufügen.

Die Abrechnung erfolgt auf Stundenbasis und kostet etwa 180 Euro pro Monat für den Hauptknoten und 90 Euro für den Zusatzknoten. Mehr dazu erfahren Sie in den Preisdetails von HDInsight. Auf dieser Seite erfahren Sie auch mehr zum Thema SLA und Verfügbarkeit der Lösung. Wenn HDInsight produktiv in Windows Azure eingebunden ist, ändern sich diese Preise voraussichtlich aber noch.

Hadoop im Test

Abbildung 3: Im Verwaltungsportal von Windows Azure schalten Administratoren Hadoop frei.
Abbildung 3: Im Verwaltungsportal von Windows Azure schalten Administratoren Hadoop frei.
(Bild: Thomas Joos)
Haben sich die Anwender an der Hadoop-Testversion angemeldet, finden Sie im Verwaltungsportal ihres Windows Azure-Kontos den Bereich Neu\Datendienste\HDInsight. Hier verwalten Sie Ihr Hadoop-System in Windows Azure. Cluster erstellen Sie im Menü auf der rechten Seiten durch Auswahl der HDInsight-Funktion.

Microsoft bietet auch ein englischsprachiges Video, welches im Detail zeigt, wie Sie einen Hadoop-Cluster einrichten und verwalten. In diesem Bereich finden Sie auch zwei weitere Videos die sich Admins vor einem Test ansehen sollten:

Wenn Administratoren für den Test freigeschaltet sind, erhalten sie eine E-Mail. Sie können nach der Bestätigung einen Hadoop-Cluster erstellen, indem Sie links im Verwaltungsportal HDInsight auswählen.

Man braucht Speicher

Allerdings ist dazu zunächst ein Speicherkonto in Windows Azure notwendig. Auch dieses wird direkt in der Verwaltungsoberfläche von Windows Azure erstellt. Tipp: In einigen Fällen muss das Speicherkonto in der Region East US (Osten der USA) eingerichtet werden, da der Hadoop-Test-Cluster ansonsten nicht auf das Speicherkonto zugreifen kann.

Abbildung 4: Um Hadoop in Windows Azure zu nutzen, müssen Admins zunächst ein Speicherkonto in der Web-Oberfläche anlegen.
Abbildung 4: Um Hadoop in Windows Azure zu nutzen, müssen Admins zunächst ein Speicherkonto in der Web-Oberfläche anlegen.
(Bild: Thomas Joos)
Die Datenspeicherung von Hadoop erfolgt in Windows Azure nicht über das Dateisystem HDFS (Hadoop Distributed File System), sondern nutzt das Speicherkonto. Anschließend ist über den Assistenten in Windows Azure den Hadoop-Cluster zu erstellen.

Dieser erlaubt nach der Erstellung auch den Zugriff über den Remote Desktop. Admins aktivieren diese Funktion in der Verwaltungsoberfläche des Clusters im Windows Azure-Verwaltungsportal. Hier erhalten sie auch Beispiele (Samples) mit denen Sie die Lösung testen können.

Der Autor:

Thomas Joos ist Autor vieler Fach- und Handbücher sowie Blogger auf DataCenter-Insider. Er lebt in Bad Wimpfen.

(ID:39732210)