Suchen

Die Daten-Raffinerie und ihr Leitungssystem Klug erklärt: Hadoop und der Zugriff auf Big Data

Autor / Redakteur: Jesse Davis / Ulrike Ostler

Wie lassen sich große Datenmengen schneller auswerten, um bessere Entscheidungen treffen zu können? Eine Lösung bietet Hadoop, ein verteiltes, hochverfügbares Dateisystem. Aber ODBC-Treiber ermöglichen einen einfachen und skalierbaren Zugriff auf das „Hadoop Distributed File System“ und zudem ein Data-Warehouse.

Firmen zum Thema

Eine Raffinerie-Anlage steht fast niemals still - so wollen es auch die Big-Data-Strategen.
Eine Raffinerie-Anlage steht fast niemals still - so wollen es auch die Big-Data-Strategen.
(Bild: Deutsche BP)

Big Data zählt zu den heiß diskutierten Themen in Unternehmen – nicht nur in den IT-Abteilungen, sondern vor allem in den Fachbereichen. Ein wichtiger Faktor für die Verbreitung von Big Data ist ein grundsätzlicher Wandel im Daten-Management. Früher haben Unternehmen meist nur die Daten gespeichert, die benötigt wurden, um akute Fragen zu beantworten.

Die Einsatzgebiete von Big Data im BI-Umfeld.
Die Einsatzgebiete von Big Data im BI-Umfeld.
(Quelle: Progress Software)
Heute wird nahezu alles aus internen und externen Quellen abgelegt, nach dem Motto „besser zu viel als zu wenig“. Technisch ist das als Folge drastisch sinkender Preise für Netzwerkkomponenten und Speicherkapazitäten problemlos möglich. Um die so entstandenen riesigen Datenmengen überhaupt noch auswerten zu können, evaluieren Unternehmen den Einsatz alternativer File-Systeme wie Hadoop.

Die Daten-Raffinerie

Hadoop“ ist ein in Java erstelltes Framework für skalierbare, verteilt arbeitende Programme. Dessen Ziel ist es, komplexe Rechenprozesse mit großen Datenmengen auf mehreren Rechner-Knoten durchzuführen. Die Ursprünge von Hadoop gehen zurück auf Doug Cutting, Erfinder der Suchmaschine „Lucene“, der die Java-Software nach Hadoop, dem gelben Spielzeugelefanten seines Sohnes, benannte.

Wie viele andere Technologien auch, läuft Hadoop auf einem Computer-Cluster. Das hat mehrere Vorteile: Erstens genügen für dessen Aufbau handelsübliche Standard-Server, mit denen ein Cluster nahezu beliebig erweitert werden kann. Zweitens schafft genau diese verteilte Architektur die Möglichkeit, große Datenmengen schnell zu verarbeiten. Durch die Aufteilung einer großen Datenmenge auf möglichst viele Server ist Hadoop fit, um auch komplexe Abfragen bearbeiten zu können.

Die meisten Unternehmen nutzen Hadoop heute als „Daten-Raffinerie“: es werden große Datenmengen importiert, zu kleinen, leichter fassbaren Paketen umgewandelt, um daraus dann die eigentlich interessierenden Informationen zu gewinnen. Ist ein Hadoop-Cluster einmal eingerichtet, beginnt die eigentliche Datenverarbeitung mit „Map Reduce“.

(ID:36793150)