Suchen

„Big Data ist kein Zauberstab.“ Big-Data-Analysen - die Tools komplex, das Know-how gering

| Redakteur: Ulrike Ostler

Rapid-I bietet Open-Source-Lösungen für Data- und Text-Mining sowie für die Prädiktive Analyse. Radoop wiederum ist die zum Unternehmen gewordene Ausgründung der University of Technology and Economics in Budapest. Die beiden Firmen haben sich zusammen getan und bieten nun eine Möglichkeit, Datenvolumen im Terabyte- und Petabyte-Bereich zu analysieren. Mehr dazu im Interview.

Erst eine adäquate Analyse macht Big Data wertvoll. Allerdings sind die Spezialisten rar und die Tools zu schwierig. Rapid-I und Radoop treten an, um dieses zu ändern.
Erst eine adäquate Analyse macht Big Data wertvoll. Allerdings sind die Spezialisten rar und die Tools zu schwierig. Rapid-I und Radoop treten an, um dieses zu ändern.
(Archiv: Vogel Business Media)

Big Data ist für viele per Definition eine Open-Source-Thema. Zugleich steht der Bedarf an neuen Anwendungen, die den Schatz, der in Rohdaten, Daten aus Sozialen Netzen, Maschinendaten, Textdaten verborgen liegt, heben können, außer Frage. Mit Rapid-I und Radoop haben sich zwei Open-Source-Spezialisten gefunden, die antreten, genau das zu tun.

Dem Interview stellten sich Ingo Mierswa, Geschäftsführer von Rapid-I und Zoltán Prekopcsák, Geschäftsführer von Radoop. Sie erläutern nicht nur, was die Anwender von ihrer Zusammenarbeit erwarten dürfen, sondern auch, wo es im Big-Data-Umfeld noch hakt.

Wie kam die Zusammenarbeit zwischen Radoop und Rapid-I zustande?

Zoltan Prekopcsák: Wir sind langjährige Anwender von RapidMiner und haben tolle Gespräche mit Rapid-I-Leuten bei Business-Intelligence-Konferenzen und bei den RCOMM-Konferenzen geführt. Beide Arbeitsteams haben einen akademischen Hintergrund und wir teilen eine Begeisterung für Datentechnologien, was die Zusammenarbeit sehr leicht gemacht hat.

Eines der ersten Ergebnisse dieser Zusammenarbeit war die Rapid-Miner-Extension Radoop. Was bietet diese Extension ihren Anwendern?

Ingo Mierswa: Radoop verbindet die Stärken von Rapid Miner und Hadoop. Das Ergebnis ist eine Rapid-Miner-Extension für die Aufbereitung und die Durchführung von ETL, Datenanalysen und Prozessen des maschinellen Lernens über Hadoop. Radoop integriert die hochoptimierten Datenanalysefähigkeiten von „Hive“ und „Mahout“ eng in die benutzerfreundliche Rapid-Miner-Oberfläche. Entstanden ist dadurch eine leistungsfähige und bedienungsfreundliche Datenanalyse-Lösung für Hadoop.

Zoltan Prekopcsák:: Radoop ermöglicht es Rapid-Miner-Anwendern, auf die in Hadoop-Clustern gespeicherten großen Daten zuzugreifen und diese zu analysieren. Jetzt ist es möglich, auch Terabyte und Petabyte von Daten von derselben intuitiven Oberfläche aus zu analysieren. Man kann ETL und Data-Mining-Prozesse konstruieren, die auf dem Hadoop-Cluster laufen, sowie Beispieldaten in Rapid-Miner visualisieren.

Zoltán Prekopcsák, Geschäftsführer von Radoop: "RapidMiner-Anwender können sehr schnell lernen, mit Radoop umzugehen. Für sie stellt es eine natürliche Art dar, auf ihre größeren Datensätze zuzugreifen und diese zu analysieren. Für andere hingegen stellt die Kombination aus Radoop und RapidMiner eine Gesamtlösung für alle Datenmengen und Datenanalyseprobleme dar."
Zoltán Prekopcsák, Geschäftsführer von Radoop: "RapidMiner-Anwender können sehr schnell lernen, mit Radoop umzugehen. Für sie stellt es eine natürliche Art dar, auf ihre größeren Datensätze zuzugreifen und diese zu analysieren. Für andere hingegen stellt die Kombination aus Radoop und RapidMiner eine Gesamtlösung für alle Datenmengen und Datenanalyseprobleme dar."
(Radoop)
Radoop beseitigt nahezu das Speicherlimit für Rapid Miner und ermöglicht es diesem, auf sehr große Datensätze zu skalieren. Wir haben Rapid Miner für viele unserer Data-Mining-Projekte eingesetzt. Er war sehr anwenderfreundlich, aber einige unserer Projekte brachten sehr große Datenbanken mit sich, denen Rapid Miner noch nicht gewachsen war.

Wir haben begonnen, komplizierte verteilte Technologien wie Hadoop einzusetzen, aber die Arbeit damit hat sich als sehr schwierig erwiesen. Wir wollten diese Lücke mit Radoop füllen und gleichzeitig die Leistungsstärke verteilter Systeme und eine bedienungsfreundliche Oberfläche zur Verfügung stellen.

Welche Auswirkung wird dieses Produkt auf Big-Data-Analysen haben?

Ingo Mierswa: Während andere Unternehmen noch von Big Data und der Überwindung damit verbundener Probleme sprechen, freuen wir uns, bereits die Lösung für die einfache Konstruktion von Datentransformationen und analytischen Prozessen auf Basis von Hadoop bekannt geben zu können.

Dr. Ingo Mierswa ist Geschäftsführer von Rapid-I: "Ich habe Zoltan zum ersten Mal bei unserer jährlichen Anwenderkonferenz RCOMM kennengelernt, die 2010 unweit des Rapid-I-Gesellschaftssitzes in Dortmund stattgefunden hat. Zoltan hat seine Arbeit im Bereich Big-Data-Analyse präsentiert. Obwohl RapidMiner mehrere Lösungen für das Arbeiten auf sehr großen Datensätzen anbietet, haben sich Zoltan und sein Radoop-Team der Herausforderung gestellt, auf Basis der neuesten Entwicklungen auf dem Big-Data-Gebiet eine noch bessere Lösung zu entwickeln. Die Ergebnisse waren und sind weiterhin sehr positiv und ich persönlich freue mich sehr über die Zusammenarbeit."
Dr. Ingo Mierswa ist Geschäftsführer von Rapid-I: "Ich habe Zoltan zum ersten Mal bei unserer jährlichen Anwenderkonferenz RCOMM kennengelernt, die 2010 unweit des Rapid-I-Gesellschaftssitzes in Dortmund stattgefunden hat. Zoltan hat seine Arbeit im Bereich Big-Data-Analyse präsentiert. Obwohl RapidMiner mehrere Lösungen für das Arbeiten auf sehr großen Datensätzen anbietet, haben sich Zoltan und sein Radoop-Team der Herausforderung gestellt, auf Basis der neuesten Entwicklungen auf dem Big-Data-Gebiet eine noch bessere Lösung zu entwickeln. Die Ergebnisse waren und sind weiterhin sehr positiv und ich persönlich freue mich sehr über die Zusammenarbeit."
(Bild: Rapid-I)
Rapid Miner + Radoop bilden die weltweit erste firmentaugliche Lösung für Big-Data-Analysen auf Basis von Hadoop. Die meisten aktuellen Initiativen zielen auf die infrastrukturelle Ebene von Hadoop ab. Radoop hingegen hat das Ziel, dem Analysten bei seiner täglichen Arbeit – unter Verzicht auf jegliche Codierung - zu unterstützen.

Zoltan Prekopcsák:: Sehe ich auch so. Big-Data-Tools sind heute äußerst kompliziert, müssen manuell definiert werden und erfordern zudem Programmierkenntnisse. Experten sind also schwer zu finden. Mit ihrer grafischen Drag&Drop-Benutzeroberfläche zur Definition von Workflows erleichtern Radoop und Rapid Miner Big-Data-Analysen erheblich. Viele Unternehmen haben bereits den einen oder anderen Big-Data-Experten, aber die sind dann die einzigen, die auf Daten zugreifen und diese analysieren können. Mit Radoop soll dies noch vielen Analysten – auch Nichttechnikern – ermöglicht werden.

Ingo Mierswa: Unternehmen, die Big Data noch nicht analysieren, bekommen hier eine Gelegenheit dazu. Dank der Einfachheit von Radoop können sie ihre ersten Schritte auf diesem Gebiet machen, ohne für diese Aufgabe extra Experten anstellen zu müssen. Auch wenn die Auswirkung für Big-Data-Anfänger am größten sein könnte, bietet Radoop so viele Funktionalitäten und Abkürzungen für typische Aufgaben an, dass auch Experten viel produktiver werden.

(ID:36561910)