Die Freunde des Hadoop-Ökosystems wollen alles ganz genau wissen

Information Overkill ist ein Fremdwort für die Apache Software Foundation Die Freunde des Hadoop-Ökosystems wollen alles ganz genau wissen

28.03.2014Autor / Redakteur: Harald Sander / Rainer Graefen

Wir fliegen mit Google Earth über jeden Ort der Erdkugel, wir wissen dank Facebook, was unsere Freunde in China zum Abendessen verspeisten. Doch wo sind noch die großen Abenteuer? Sie stecken in den unendlichen Sensorwerten von uns allen!

Anbieter zum Thema

fsas-afc-horizontal-2-positive-rgb-nov24 (Fsas)

Fujitsu Technology Solutions GmbH

Hyland Software Germany GmbH

Cloudgermany.de GmbH

In Zukunft bleibt wenig verborgen, wenn sich das humane Internet und das Internet der Dinge abfragen lassen.
(Grafik: @pixout-webdesign.de)

Für Google, für Facebook, für Yahoo und diverse andere Unternehmen, die im Bereich sozialer Netzwerke aktiv sind, ist die Aufgabe klar definiert: Wir machen aus der Welt ein Dorf, im Endeffekt ein virtuelles, das sich jeweils auf einigen Zehntausend Rechnerknoten befindet.

Und jeder „Dorfbewohner“ darf sein Scherflein dazu beitragen, damit die Rechnung der Dorfbetreiber aufgeht. Am Ende eines jeden Dorftages hat beispielsweise Facebook 500 Terabyte Daten in Form von Texten, Bildern, Videos und vielen geschmäcklerischen Likes mehr auf der Habenseite.

Datenspeicher kosten, Metadaten bringen Geld

Zurzeit überschlägt sich die Industrie mit der Ankündigung von Hypes: Cloud Computing, Big Data und seit kurzem noch das Internet der Dinge. Man kann das als getrennte Ereignisse betrachten, ein Blick auf die Inhalte dieser Hypes zeigt allerdings, dass es bei den drei Themen um unbeschränkte Rechenleistung für die Analyse eines unbeschränkten Datenwachstums von Milliarden Menschen und Maschinen geht.

Der Analyse-Markt verspricht außer vielen Erkenntnissen auch viel Umsatz. Gartner veröffentlichte gerade seine ersten Schätzungen, welches Umsatzpotenzial im Internet der Dinge steckt: Die Marktforscher rechnen mit 300 Milliarden US-Dollar schon im Jahr 2020. Und auf eine Analyse-Plattform schwören sich eine seit sieben Jahre wachsende Anzahl von Anbietern ein: Hadoop.

Hadoop gilt als die frei verfügbare Software-Plattform, die ein Datenvolumen von einigen zehn Terabyte bis zu einigen Hundert Petabytes handeln kann. Auch wenn nicht jedes Big-Data-Projekt in diesen Datenvolumendimensionen betrieben wird, die Wahrscheinlichkeit großer Datenmengen wächst mit sozialen Netzwerken, Humangenetik, Erdbebenvorhersage und spätestens mit dem „Internet of Things“, das uns Milliarden von Sensoren bringen wird.

Hadoop konzentriert viel Rechenleistung auf den Datenhaufen

Hadoop kann eine Hardwarebasis aus vielen Tausend Rechnerknoten beschäftigen, die in einem Master-Slave-Betrieb riesige Datenmengen durchsuchen. Die Knoten rechnen mit x86-Industrierechnern und Linux-Software. Über die gesamte Hardware inklusive der Betriebssysteme wird das Hadoop Distributed File System gespannt. Während die Slave-Knoten jeweils einen Anteil der Daten bearbeiten und den Status der Rechenarbeit per Task Tracker an die Zentrale melden, muss der Master-Knoten den zentralen Namensraum für alle Slaves bereitstellen und per Job Tracker die Aufgaben (Task) an freie Slave-Knoten verteilen.

(ID:42602247)