Die Zukunft von Hadoop in einer cloud-basierten Welt

Big Data und Datenmanagement Die Zukunft von Hadoop in einer cloud-basierten Welt

14.07.2020 Von David Richards*

Anbieter zum Thema

fsas-afc-horizontal-2-positive-rgb-nov24 (Fsas)

Fujitsu Technology Solutions GmbH

Flexera Software GmbH

Cloudgermany.de GmbH

Mit dem Versprechen, enorme Mengen von Daten in verteilten Umgebungen wirtschaftlich speichern und möglichst einfach verarbeiten zu können, hat Hadoop seit 2006 das Datenmanagement revolutioniert. Im vergangenen Jahr ereilte das Framework dann ein ziemlicher Schlag, mit Auswirkungen auf Anwendung und Anwender. Dennoch bleibt uns Hadoop noch eine Weile erhalten.

Hadoop-Pionier David Richards sieht in der dynamischen und flexiblen Cloud die Zukunft des Datenmanagements, nicht in „monolithischen technologischen Modellen“.(Bild: © SriWidiawati - stock.adobe.com) — Hadoop-Pionier David Richards sieht in der dynamischen und flexiblen Cloud die Zukunft des Datenmanagements, nicht in „monolithischen technologischen Modellen“.
(Bild: © SriWidiawati - stock.adobe.com)

Mit Übernahmen im Wert von rund 18 Milliarden US-Dollar haben wir 2019 wahre tektonische Verschiebungen in der Big-Data-Industrie erlebt. Darunter die Übernahmen von Tableau durch Salesforce, von Looker durch Google und von Hedvig durch CommVault. Diese Konsolidierungswelle signalisiert zweifellos eine grundlegende Veränderung der Aussichten für Hadoop. Doch selbst angesichts der jüngsten Achterbahnfahrt von Cloudera, MapR und anderer Hadoop-Player, ist es noch zu früh, sich jetzt schon festzulegen, was das genau für die Plattform bedeutet. Hadoops einstiger Superstar-Status ist sicherlich geschwächt, doch steht seine Existenz nicht in Frage. Um das einzuordnen, braucht es zunächst den Blick zurück und dann nach vorn auf die nächsten Etappen.

Was ist Hadoop?

Hadoop ist ein Java-basiertes Open-Source-Framework, das von der Apache Software Foundation verwaltet wird. Es wurde entwickelt, um riesige Datensätze über Cluster von Standard-Hardware zu speichern und zu verarbeiten und einfache Programmiermodelle zu nutzen. Hadoop wurde für die Skalierung von Einzel- bis hin zu Tausenden von Servern entwickelt. Für seine Hochverfügbarkeit setzt es eher auf Software als auf Hardware – was bedeutet, dass das System von selbst Fehler in der Anwendungsschicht erkennt und behandelt. Hadoop besteht aus zwei Hauptkomponenten: dem Hadoop Distributed File System (HDFS) und Yet Another Resource Negotiator (YARN).

HDFS ist das Haupt-Datenspeichersystem von Hadoop, das eine NameNode/DataNode-Architektur verwendet, um den High-Performance-Zugriff auf Daten in einem verteilten Dateisystem zu ermöglichen, das auf hoch skalierbaren Hadoop-Clustern basiert. YARN, das ursprünglich „MapReduce 2“ genannt wurde – als nächste Generation des sehr beliebten „MapReduce“ –, unterstützt bei der Planung von Aufträgen und der Verwaltung von Ressourcen in allen Cluster-Anwendungen. Häufig wird es auch von Hadoop-Entwicklern verwendet, um Anwendungen zu erstellen, die mit extrem großen Datensätzen arbeiten können.

Eine kurze Geschichte von Hadoop

Die Ursprünge von Hadoop gehen auf das Jahr 2002 zurück, als die Entwickler Doug Cutting und Mike Cafarella von Apache Nutch sich auf die Suche nach einer kostengünstigeren Projektarchitektur begaben, die der Nutch’schen Zielstellung gerecht werden kann, eine Milliarde Webseiten zu indizieren. Doug wechselte 2006 zu Yahoo und bekam ein engagiertes Team samt Ressourcen, mit denen er Hadoop zu einem webbasierten System entwickeln konnte. 2008 dann brachte Yahoo Hadoop für Apache heraus und es wurde erfolgreich über einen Cluster mit 4.000 Knoten getestet.

Im Jahr darauf, 2009, wurde Hadoop erstmals erfolgreich im Petabyte-Maßstab getestet – es bewältigte Milliarden von Suchvorgängen und indexierte Millionen von Seiten in gerade einmal 17 Stunden. Zum damaligen Zeitpunkt fast noch undenkbar. Noch im selben Jahr verließ Doug Cutting dann Yahoo und wechselte zu Cloudera, das er zum ersten Hadoop-spezifischen Unternehmen machte. Erklärtes gemeinsames Ziel war, Hadoop auf andere Branchen auszuweiten. Auf Cloudera folgten 2009 MapR sowie 2011 Hortonworks und Hadoop gewann schnell die Gunst der Fortune-500-Anbieter, die Big Data als ein sich rasant entwickelndes und hochwertiges Feld identifizierten.

Das große Versprechen...

Der Begriff „Big Data“ bedeutet für verschiedene Menschen ganz unterschiedliche Dinge. Vielleicht lässt er sich deshalb besser mit „viel mehr Daten mit viel größerer Wirkung“ ausdrücken. Denn irgendwann stellten Unternehmen fest, dass alle Daten, die sie aus ihren Web- und Social-Media-Präsenzen generierten, entweder verloren gingen oder sich einfach nur ungenutzt in teuren Speichern ansammelten. Sie erkannten, dass diese Daten für eine bessere und personalisierte User Experience genutzt werden konnten, die Zufriedenheit und Umsätze gleichermaßen steigern würden. Ihnen fehlten bloß noch die Werkzeuge, um dies kostengünstig und in großem Maßstab zu tun.

Auftritt Hadoop! Diese neue Technologie versprach die wirtschaftliche Datenspeicherung in großem Maßstab und eine rationalisierte Verarbeitung von Datenvolumen im hohen Petabyte-Bereich. So wurde die Idee unternehmenseigener „Datenseen“ (Data Lakes) geboren – und die glorreiche Ära der effektiven Verarbeitung großer Datenmengen begann.

...und was davon geblieben ist

Als Hadoop ins Leben gerufen wurde und an Popularität gewann, war es die sprichwörtliche Idee, deren Zeit gekommen ist (und nichts auf der Welt ist mächtiger als eine solche, wie wir seit Victor Hugo nun mal wissen). Endlich gab es eine kostengünstige Möglichkeit, Petabytes von Daten zu einem Preis zu speichern, der nur einen Bruchteil der traditionellen Data-Warehousing-Kosten ausmachte. Doch dann erkannten die Unternehmen, dass die Speicherung von Daten und deren Verarbeitung zwei völlig unterschiedliche Herausforderungen sind. Sie begannen, ihre Data Warehouses als „Datensumpf“ zu nutzen, aber die hier abgelegten Daten nicht wirklich zu verwerten.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Cloud Computing

Geschäftliche E-Mail

Bitte geben Sie eine gültige E-Mailadresse ein.

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Stand: 08.12.2025

Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.

Einwilligung in die Verwendung von Daten zu Werbezwecken

Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.

Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.

Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.

Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.

Recht auf Widerruf

Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.

Trotz der Versprechen von Cloudera, MapR und anderen Unternehmen, cloud-ähnliche Flexibilität via Hadoop zu erreichen, begannen Data Architects ihre riesigen Data Lakes zu überdenken. Cloudera und andere Hadoop-Anbieter reagierten auf das wachsende Interesse an cloud-basierten Lösungen mit Hybrid- und Multi-Cloud-Angeboten wie der Cloudera Datenplattform (CDP), die schließlich im vergangenen März eingeführt wurde. Nur basierten diese Angebote weitgehend auf klobigen „Lift & Shift“-Methoden, deren Wirksamkeit und Effizienz nach wie vor fraglich sind.

Das war „too little, too late“. Im Wesentlichen hatten die Hadoop-Anbieter versucht, ihre eigene Version eines Lock-ins zu schaffen. Stattdessen schufen sie einen neuen Markt. Indem sie versuchten, der Innovation Einhalt zu gebieten, trieben sie Organisationen mit großen Datenmengen direkt in die offenen Arme spezialisierter Cloud-Dienste zur Speicherung, Verarbeitung und Analyse großer Datenmengen, wie sie von AWS, Azure und Google Cloud angeboten werden. Die Verantwortlichen in diesen Organisationen haben sich an die Freiheit, Leistung und Flexibilität der cloud-basierten Lösungen gewöhnt. Davon gibt es kein Zurück mehr.

Ein langes und langsames Verschwinden

Hadoops freier Fall im vergangenen Jahr steht exemplarisch für den anhaltenden Übergang der Branche weg von der Technologie einer veralteten Ära. Wir bewegen uns fort von der lokalen Speicherung von Daten und Milliarden von batch-basierten Abfragen – hin zu Echtzeit-Analysen von massiven Datensätzen in der Cloud. Dennoch wird Hadoop nicht so bald verschwinden. Denn aktuell und noch einige Zeit müssen Unternehmen einen Weg finden, den Übergang zu vollziehen und dabei sukzessive andere Optionen in einer Welt nach Hadoop zu finden.

Derweil werden Hadoop-basierte Data Lakes noch jahrelang in Branchen weiterleben, in denen zeitkritische und aufschlussreiche Analysen weniger wichtig sind und die Kosten die Effizienz übertrumpfen. Hadoop wird seinen rechtmäßigen Platz im großen Daten-Ökosystem haben. Aber in dynamischen und schnelllebigen Business-Landschaften wird das Datenmanagement zweifellos in der Cloud stattfinden und Unternehmen müssen diesen Übergang schon heute planen. Es wird Zeit.

Alles fließt in Datenströmen

Data Lakes gehören der Vergangenheit an, denn Daten sind kein statisches geschlossenes Konstrukt. Vielmehr müssen wir Daten als einen Fluss betrachten, der nicht gestaut werden kann – nicht als See. Daten fließen und befinden sich in ständigem Wandel, das Geschäft kann nicht wegen Migrationen, Upgrades oder Ausfallzeiten stillstehen. Der Datenkontext entwickelt sich von Minute zu Minute weiter, und die Sicherstellung von Datenkonsistenz und -verfügbarkeit ist die wahre Herausforderung für die Datenverantwortliche – nicht nur das Füllen eines Reservoirs.

David Richards, CEO von WANdisco.(Bild: WANdisco) — David Richards, CEO von WANdisco.
(Bild: WANdisco)

Und deshalb wird Hadoop letztlich verblassen und schwinden, wie es alle monolithischen technologischen Modelle unweigerlich zugunsten ihrer dynamischeren Nachkommen tun. Die Menschen sind auf Seiten der Freiheit, die dem Cloud-Paradigma innewohnt. Daten sollten nicht in Seen versenkt werden, sie müssen ungehindert fließen können.

* Der Autor David Richards ist Hadoop-Begleiter der ersten Stunde. Er ist Co-Gründer von WANdisco und führt das Unternehmen seit 2005 als CEO.

In einem Gartner Report bewerten IT-Entscheider die veränderte Rolle lokaler Hadoop-Systeme im Kontext der Cloud. Der Report gibt klare Empfehlungen für den größten Mehrwert anstehender Datenmanagement-Projekte. Der Download ist kostenfrei.

(ID:46685797)