Datameer stellt Smart Analytics vor

Die benutzerfreundliche Analyse für Hadoop

Seite: 2/4

Anbieter zum Thema

Das adressierte Dilemma

Da Problem, das Datameer adressiert, steckt in der Diskrepanz, die zwischen der Notwendigkeit besteht, schnell und zuverlässig an entscheidungsrelevante Informationen zu gelangen und der Zeit, die es dauert, diese zugänglich zu machen. Die Notwendigkeit, weniger dichte Daten aus unterschiedlichen Quellen wie Social Networks oder Maschinendaten hinzunehmen zu können, beziehungsweise zu müssen, verschärft diese Situation noch.

Denn die verschiedenen Datentöpfe müssten integriert und Auswertungsschemata erstellt werden, erläutert Groschupf. Das Problem dabei stelle jedoch weder, wie in der Big-Data-Diskussion glauben gemacht werde, das Volumen dar, noch das traditionelle Datenbanken, die semi- oder unstrukturierten Daten nicht verarbeiten könne, sondern die Integration in die Datenanalyse.

Warum Hadoop?
Warum Hadoop?
(Bild: Datameer)
Mit herkömmlichen Mittel gelinge das, sei aber viel zu umständlich und dauere schlichtweg zu lange. Zum Beispiel benötigt eine Data-Warehouse ein Schema, das auf ausgewählte Datensätze angewandt wird. Die Entwicklung solcher Schemata, beziehungsweise ein entsprechender Änderungszyklus nehme im Schnitt, so Groschupf, 18 Monate in Anspruch.

Schnell lassen sich neue Quellen mit neuen Fragen erschließen

Darüber hinaus kämen bis zu zehn Analyse-Tools um Einsatz und die Schemata selbst veränderten das Schreiben in die Datenbank. „Das ist der General-Motors-Ansatz“, erläutert der Datameer-CEO. „Zuerst wird das Auto designed und dann die Fabrik dafür gebaut. Klar, ist diese hocheffizient, aber nur für ein Modell.“

Bezogen auf die Datenauswertung könnten die BI-Analysen schnell und zuverlässig die Vergangenheit erklären, doch um ein wenig in die Zukunft zu schauen, also brauche es sowohl eine andere Art der Datenhaltung als auch der Analysen.

Laut Datameer gibt es vier gute Gründe für Hadoop-Cluster; Nummer 2 ist die Ersparnis durch Commodity-Hardware- und Netze.
Laut Datameer gibt es vier gute Gründe für Hadoop-Cluster; Nummer 2 ist die Ersparnis durch Commodity-Hardware- und Netze.
(Bild: Datameer)
„Wir machen das also ganz anderes“, sagt Groschupf. Die Daten werden im Rohzustand belassen und in einem Hadoop-Cluster abgelegt. Das erspare im Übrigen auch teure Speicher-Infrastrukturen mit Fiber-Channel – es werden kaum Datan im Netz hin- und her geschoben – und dedizierter Storage-Hardware. Darüber hinaus erlaube der Rohzustand, immer wieder neue Schemata für die Auswertung zu entwickeln. „Die Daten müssen nicht erst zu einer Verarbeitung aufbereitet werden“, formuliert der Hadoop-Experte, „wir schieben den Code zu den Daten“.

(ID:40225360)