Hortonworks und das Release Data Platform 2.1

Hadoop - das Big-Data-Betriebssystem

Seite: 3/4

Firmen zum Thema

Die Treiber sind hinlänglich bekannt:

  • Die Unternehmen wollen weg von reaktiven Analysen und mit möglichst verlässlichen Daten so weit in die Zukunft schauen, wie es geht.
  • Die exitenten Datenhaltungs- und Verwaltungssysteme, sind zu teuer und überfordertet durch die Menge und die vielen verschiedenen Formate.
  • Der Kostenanteil an der IT, der für Datensyteme aufgewändet werden muss, steigt. Open Source und Commodity-Hardware versprechen Erleichterung aber auch eine größere Innovations und Umsetzungsgeschwindigkeit (siehe: Abbildung 5)
Bildergalerie
Bildergalerie mit 15 Bildern

Hadoop, ursprünglich von Yahoo als einfache Alternative für die verteilte Datenhaltung und zur Indizierung des Web-Content entwickelt, wurde es am 23. Januar 2008 zum Top-Level-Projekt der Apache Software Foundation. Doch bis zur Version 2.0 war das in Java geschriebene Framework hauptsächlich für die Batch-Verarbeitung gedacht und für Echtzeit-Anwendungen viel zu langsam.

Änderung der Spielregeln

MapReduce, ursprünglich von Yahoo für die Indizierung im Web entwickelt, bildete mit den Aufgaben Reading, Interpreting und Reducing die Zwischenschicht. Doch laut Conolly haben sich hauptsächlich mit der Einführung von „Yarn“ die Spielregeln geändert. (Welche Projekte außerdem wesentlich für die Versionen 2.x sind, siehe: Bildergalerie oben)

Hadoop Summit 2014 in Amsterdam
Bildergalerie mit 32 Bildern

Hortonworks bezeichnet Yarn als das eigentliche Daten-Betriebssystem, das unter anderem das Ressourcen-Management in Hadoop-Cluster übernimmt (siehe: Abbildung 6). Die Hadoop-Erweiterungen wie „Pig“ für das Scripting, oder „Storm“, das Streaming-Daten analysiert, aber auch MapReduce zur Batch-Verarbeitung setzen nunmehr auf Yarn auf.

Artikelfiles und Artikellinks

(ID:42635438)