Das Hadoop Öko-System
Um diese beiden Kern-Komponenten (Core Hadoop) herum tummelt sich ein ganzes Öko-Systems an weiteren Komponenten, wie die von Yahoo entwickelten Scripting Engine „Apache Pig“, „Apache Hive“, eine auf dem MapReduce-Framework basierende Abstraktionsebene mit einer SQL-ähnliche Abfragesprache „HiveQL“, Weiterhin sind „Hortonworks HCatalog“ für das Metadaten-Management oder die NoSQL-Datenbank „Apache HBase“ zu nennen, welche immer dann zum Einsatz kommt, wenn die Batch-orientierte Arbeitsweise von Hadoop mit ihrer Optimierung auf das einmalige Speichern und mehrmalige Lesen der Daten dem Problem nicht angemessen ist, etwa wenn ein Manipulieren der Daten gewünscht ist oder bei sehr schreib intensiven Szenarien.

Die SQL-ähnliche Abfragesprache HiveQL hingegen erlaubt das Ausführen von Abfragen oder ermöglicht Aggregationen und die Analyse der im HDFS gespeicherte Daten. Hive ist damit quasi die Data-Warehouse-Komponente des Hadoop-Frameworks.
Der Zoo

Hadoop kann inzwischen nicht nur relationale Datenbanken verwalten, sondern auch eine ganze Reihe von Spezial-Daten. So erlaubt etwa „Apache Flume“ das Sammeln und Aggregieren von Log-Daten.
Die Hadoop-Distributionen
Während das Hadoop-Kernsystem (Core Hadoop) nur aus dem HDFS und MapReduce besteht, meint man mit Hadoop im allgemeinen Sprachgebrauch das oben skizzierte Ökosystem von verwandten, zusammenhängende, aufeinander basierenden Einzel-Projekten. Deshalb ist die Bezeichnung Hadoop-Framework sehr treffend.

Das Installieren und Betreiben eines Hadoop-Cluster ist allerdings eine sehr komplexe Angelegenheit, weil Hadoop weder irgendeine Hilfe bei der Installation, noch bei der Überwachung eines Hadoop-Clusters bietet. Außerdem ist es sehr aufwendig, einzelnen Komponenten des geschilderten Hadoop-Öko-Systems zu nutzen oder in eigene Projekte zu integrieren, da jede davon einzeln installiert und konfiguriert werden muss.
Ferner sind nicht alle Komponenten miteinander kompatibel, so dass Unternehmen eine gehörige Portion Know How benötigen, um die jeweils zueinander passenden Versionen der jeweiligen Hadoop-Komponenten zu bestimmen und zur Zusammenarbeit zu bewegen. Hadoop pur eignet sich daher nur für hoch spezialisierte Fachleute oder Entwickler.
Hadoop-Distribution wie die oben genannten sind dagegen aufeinander abgestimmte Suiten aus der Hadoop-Basis-Software und weiteren Hadoop-Komponenten, zusätzlichen Tools und zum Teil herstellerspezifischen Erweiterungen. Eine Hadoop-Distribution lässt sich als integriertes Softwarepaket daher in der Regel einfacher konfigurieren und in Betrieb nehmen, als das quelloffene Hadoop-Core-System. Zudem bieten Hadoop-Distributionen den für viele Unternehmen unerlässlichen Hersteller-Support. Darüber hinaus gibt es noch die so genannten Big-Data-Suiten. Diese beruhen nur zum Teil auf Core-Hadoop, kombiniert mit eigenen Frameworks und enthalten im Gegensatz zu den Hadoop-Distributionen auch Werkzeuge für die Echtzeitanalyse, sowie Tools zur Datenmodellierung und Visualisierung.
Der Autor:
Thomas Driilling ist freier Autor und bloggt auf Datacenter-Insider: Drillings Open-Source-Eck
Artikelfiles und Artikellinks
(ID:42695649)