Hortonworks und das Release Data Platform 2.1 Hadoop - das Big-Data-Betriebssystem

Redakteur: Ulrike Ostler

„Hadoop ist das Big-Data-Betriebssystem.“ Die Aussage vom Forrester-Analysten Mike Gaultieri macht das Open-Source-Framework für die Haltung und Verarbeitung multi-strukturierter Daten zu einem must-have – eine Steilvorlage für den Distributor Hortonworks, der gerade frisches Kapital bekam und seinen „Hadoop Summit“ hielt.

Firmen zum Thema

Das Maskottchen von Hortonworks ist ein grün gewandeter Elefant.
Das Maskottchen von Hortonworks ist ein grün gewandeter Elefant.
(Bild: Ulrike Ostler)

Die Grundlage jeder Hadoop-Diskussion ist derzeit die Apache-Versionen 2.x (siehe: Hadoop-Releases von Apache). Zu den wichtigsten Distributoren gehören laut Forrester Research MapReduce Technology, Cloudera und Hortonworks (siehe: Abbildung Forrester Wave „Big Data Hadoop Solutions, Q1 2014“). Insgesamt untersuchten die Analysten neun Angebote, auch von Amazon Web Services (AWS), IBM, Intel, Microsoft, Pivotal Software und Teradata nach insgesamt 32 Kriterien.

Der Forrester-Wave-Breicht über "Big Data Hadoop Solutions" stammt aus diesem Frühjahr.
Der Forrester-Wave-Breicht über "Big Data Hadoop Solutions" stammt aus diesem Frühjahr.
(Bild: Forrester)

Daraus dürften nun bereits acht geworden sein, lässt doch Intel seine eigene Hadoop-Entwicklung zugunsten der von Claudera fallen. Seit dem 1. April ist klar, dass Intel mit rund 740 Millionen Dollar in das Unternehmen einsteigt und damit 18 Prozent der Firmenanteile erwirbt.

Insgesamt schließt das Unternehmen damit eine Finanzierungsrunde mit Investitionen in der Höhe von 900 Millionen ab. Von Claudera wird erwartet, dass die Firma in Laufe des Jahres an die Börse geht und dann etwa 4,1 Milliarden Dollar schwer sein wird.

Hortonworks contra Cloudera

Dagegen nimmt sich die Kapitalaufnahme von Hortonworks, das rund 300 Mitarbeiter beschäftigt und in Palo Alto ansässig ist, geradezu bescheiden aus. Das Yahoo-Spin-off schloss in diesem Monat eine Finanzierungsrunde mit 100 Millionen Dollar ab. Investiert haben etwa Black Rock and Passport Capital. Auch Hortonworks-CEO Rob Bearden stellt einen Börsengang in Aussicht – noch in diesem Jahr, spätestens aber 2015.

Bildergalerie
Bildergalerie mit 15 Bildern

Doch die Höhe der Kapitalaufnahme ist nicht der einzige Unterschied zwischen den beiden Firmen. Shaun Conolly, Vice President Corporate Strategy bei Hortonworks, sieht im Wesentlichen zwei Unterschiede:

  • Hortonworks orientiere sich ganz eng am Apache-Standard, versioniere und paketiere lediglich die diversen Tools, die rund um das Hadoop Distributed File System (HDFS) entstehen, zu einer Plattform, während Cloudera sich vom Standard entferne und Eigenentwicklungen mit der Distribution verknüpfe.
  • Hortonworks biete seine Distribution als Ergänzung zu traditioneller Datenhaltung an. „Wir sind kein Ersatz für Oracle“, sagt Conolly. Daher aber fiele es Unternehmen wie Microsoft, SAP, Teradata, HP und SAS leicht, zum Hortonworks-Partner zu werden, um diese Distribution zum Teil gar als OEM-Produkt zu vermarkteten. Anderenfalls müssten diese Unternehmen befürchten, sich einen Kuckuck ins Nest zu holen. Und Cloudera positioniere seine Hadoop-Platform als preisgünstigen Ersatz etwa für relationale Datenbanken.
Hadoop Summit 2014 in Amsterdam
Bildergalerie mit 32 Bildern

Die Kunden wollen Big Data billig

Doch manche Kunden wollen genau das. Jüngst im Center of Excellence von HP in Grenoble: Die Anwesenden erfuhren von einer Großbank, die vorest anaonym beliebn will und der Teradata erstens zu teuer, zweitens nicht umfangreich genug, drittens zu langsam und viertens zu starr war. HP, auch ein Partner von Cloudera und MapReduce, wurde mit der Ablösung betraut.

Heute setzt der Kunde eine Hadoop-Distribution, die HP Cluster Management Utility Software und „HP Proliant SL4540 Gen8“- Server ein. Welche Hadoop-Distribution genutzt wird, blieb ungesagt. Teradata gehört übrigens mittlerweile zu den Hortonworks-Reseller.

Bildergalerie
Bildergalerie mit 15 Bildern

Also sieht so aus, als könne sich Hortonworks eine große Scheibe von dem Big Data-Kuchen, der gerade erst aufgeht, abschneiden. Nach Angabe von IDC hatte das Datenaufkommen im Jahr 2015 ein Volumen von 12 Zetabytes (1 Zetabyte = 1 Million Petabytes). Für das Jahr 2020 prognostizieren die Auguren ein Aufkommen von 40 Zetabytes.

Prognosen

85 Prozent des Datenaufkommens stammen aus bisher nicht oder kaum genutzten Quellen und bilden viele neue Typen. In etwa sechs Jahren soll sich der Anteil maschinengenerierten Daten auf rund 15 Prozent belaufen.

Hadoop Summit 2014 in Amsterdam
Bildergalerie mit 32 Bildern

2015 soll sich der Umsatz mit Big Data auf rund 27 Milliarden Dollar belaufen, zu etwa gleichgroßen Stücken auf Hardware, Services und Software verteilt. Rund 6 Milliarden Dollar könnten mit Hadoop verdient werden. Im Jahr 2020 sollen rund 100 Milliarden Dollar mit Big Data generiert werden, 18 Milliarden mit Services, 17 Milliarden mit Hardware und 15 Milliarden mit Software. Auf Hadoop könnte ein Umsatz von 50 Milliarden entfallen.

Die Treiber sind hinlänglich bekannt:

  • Die Unternehmen wollen weg von reaktiven Analysen und mit möglichst verlässlichen Daten so weit in die Zukunft schauen, wie es geht.
  • Die exitenten Datenhaltungs- und Verwaltungssysteme, sind zu teuer und überfordertet durch die Menge und die vielen verschiedenen Formate.
  • Der Kostenanteil an der IT, der für Datensyteme aufgewändet werden muss, steigt. Open Source und Commodity-Hardware versprechen Erleichterung aber auch eine größere Innovations und Umsetzungsgeschwindigkeit (siehe: Abbildung 5)
Bildergalerie
Bildergalerie mit 15 Bildern

Hadoop, ursprünglich von Yahoo als einfache Alternative für die verteilte Datenhaltung und zur Indizierung des Web-Content entwickelt, wurde es am 23. Januar 2008 zum Top-Level-Projekt der Apache Software Foundation. Doch bis zur Version 2.0 war das in Java geschriebene Framework hauptsächlich für die Batch-Verarbeitung gedacht und für Echtzeit-Anwendungen viel zu langsam.

Änderung der Spielregeln

MapReduce, ursprünglich von Yahoo für die Indizierung im Web entwickelt, bildete mit den Aufgaben Reading, Interpreting und Reducing die Zwischenschicht. Doch laut Conolly haben sich hauptsächlich mit der Einführung von „Yarn“ die Spielregeln geändert. (Welche Projekte außerdem wesentlich für die Versionen 2.x sind, siehe: Bildergalerie oben)

Hadoop Summit 2014 in Amsterdam
Bildergalerie mit 32 Bildern

Hortonworks bezeichnet Yarn als das eigentliche Daten-Betriebssystem, das unter anderem das Ressourcen-Management in Hadoop-Cluster übernimmt (siehe: Abbildung 6). Die Hadoop-Erweiterungen wie „Pig“ für das Scripting, oder „Storm“, das Streaming-Daten analysiert, aber auch MapReduce zur Batch-Verarbeitung setzen nunmehr auf Yarn auf.

Jetzt kommt Echtzeit

Deutlich wird der Unterschied etwa beim Andocken von SQL-basierten Abfrage-Tools, beziehungsweise Hive/Stringer (siehe: Abbildung 10). Hive, 2007 von Facebook entwickelt und längst ein Apache-Projekt, an dem für die aktuelle Version 145 Entwickler aus 44 unterschiedlichen Unternehmen mitgearbeitet haben, erlaubt SQL-Abfragen sowohl in der Batch-Verarbeitung als auch in interaktiven Modi. Hier sind Performance-Verbesserungen bis zum Hundertfachen möglich.

Bildergalerie
Bildergalerie mit 15 Bildern

Die SQL-Extensions, an denen etwa Microsoft mit einer großen Mannschaft beteiligt hat, erlauben trotzdem ein so genanntes schema on read., also ein Auswertungsmuster, das beim Lesen der Daten entsteht und nicht wie bei herkömmlichen Datawarehouse beim Schreiben (siehe: Abbildung 9). Das Projekt „Tez“, von Hortonworks gestartet, erlaubt etwas, dass über das Caching von Datensätzen die „Anlaufzeiten“ minimiert und über Container , JBMs weiter verwendet werden also mehrere Anfragen in derselben Session laufen können. Das Splitten von Tabellen etwa findet vorab statt.

Conolly beschreibt die Entwicklung als eine „Evolution“ von MapReduce, zumal der Code von 2006 wieder verwendet wurde. Allerdings lassen sich mit Hive nun Abfragen über Hunderte von Nodes konsistent und schnell verarbeiten. „Stinger“, gedacht für interaktive Abfragen, ist in den Hadoop-2.x-Versionen um über 330.00 Codezeilen reicher.

Was wird aus den Data Warehouses?

Ob die SQL-Erweiterungen nun ein weiterer Sargnagel des bisherigen Data-Warehousing sind? Forrester-Analyst Gaultieri sagt: „81 Prozent aller Unternehmen glauben an Hadoop“. Doch sei Hadoop nicht Big Bata, vielmehr eine Big-Data-Technik, bestehend aus einem File-System und aus einem Tool-Framework für die Datenverarbeitung, eben ein Betriebssytem.

Hadoop Summit 2014 in Amsterdam
Bildergalerie mit 32 Bildern

Doch wichtig sei es im Kopf zu behalten, dass in in der herkömmlichen Art und Weise der Analyse, Menschen bereits vorab entscheiden mussten, welche Daten später relevant sein könnten und mit welchem Modell sie untersucht werden sollten. Jetzt entstehen riesige Datenseen (Data Lakes), über die Algorithmen laufen, um Datenmodelle zu finden. Der Prozess ist quasi auf den Kopf gestellt. Die Datenmenge oder auch die multistrukturierten Datentypen bilden lediglich die Grundlage. Ein Ersatz bisheriger Technik ist seiner Interpretation zufolge also lediglich ein Startpunkt.

(Bild: Ulrike Ostler)

Hortonworks allerdings weist selbst darauf hin, dass ein Hadoop-Cluster doch zunächst einmal günstiger kommt. Die Relation bezogen auf ein Terabyte Roh-Daten: ab 100.000 Dollar bei konvergenten Systemen, ab 20.000 Dollar bei Massiv-Parallelen Systemen und ab 40.000, eher ab 80.000 Dollar bei SAN-Systemen, 5.000 Dollar beim Einsatz von Hadoop (siehe: Abbildung 5).

Der Technology Evangelist bei SAP

Timo Elliot, Technology Evangelist bei SAP, jedenfalls pflichtet der Sichtweise von Hortonworks bei. Er sieht Hadoop-Cluster vor allem in Ergänzung zum In-Memory-Computing mit HANA. Er sagt: „ Auch traditionelle Datenbank-Technik“ wird nicht einfach verschwinden, so wird es im Transaktionsbereich ziemlich nahtlose Übergänge von der einen zur anderen Technik geben.“ SAP bietet neben HAN noch die Opensource-Datenbank „SAP MaxDB“ und „Sybase IQ“ an.

Dennoch: Im ERP-Umfeld würden die meisten Firmen vermutlich zu HANA-ähnlichen Infrastrukturen wechseln. Doch zugleich suchten sie nach Möglichkeiten, HANA einfacher und billiger zu unterstützen. „Wir streben jedenfalls eine Integration auf einem sehr tief reichenden Level an.“

Als größtes Hindernis, Kunden an Hadoop zu gewöhnen, nennt er übrigens, dass es Open Source sei, also genau den Umstand, der das Framework für SAP und andere OEMs so attraktiv macht.

Artikelfiles und Artikellinks

(ID:42635438)