„Big Data ist kein Zauberstab.“ Big-Data-Analysen - die Tools komplex, das Know-how gering

Redakteur: Ulrike Ostler

Rapid-I bietet Open-Source-Lösungen für Data- und Text-Mining sowie für die Prädiktive Analyse. Radoop wiederum ist die zum Unternehmen gewordene Ausgründung der University of Technology and Economics in Budapest. Die beiden Firmen haben sich zusammen getan und bieten nun eine Möglichkeit, Datenvolumen im Terabyte- und Petabyte-Bereich zu analysieren. Mehr dazu im Interview.

Erst eine adäquate Analyse macht Big Data wertvoll. Allerdings sind die Spezialisten rar und die Tools zu schwierig. Rapid-I und Radoop treten an, um dieses zu ändern.
Erst eine adäquate Analyse macht Big Data wertvoll. Allerdings sind die Spezialisten rar und die Tools zu schwierig. Rapid-I und Radoop treten an, um dieses zu ändern.
(Archiv: Vogel Business Media)

Big Data ist für viele per Definition eine Open-Source-Thema. Zugleich steht der Bedarf an neuen Anwendungen, die den Schatz, der in Rohdaten, Daten aus Sozialen Netzen, Maschinendaten, Textdaten verborgen liegt, heben können, außer Frage. Mit Rapid-I und Radoop haben sich zwei Open-Source-Spezialisten gefunden, die antreten, genau das zu tun.

Dem Interview stellten sich Ingo Mierswa, Geschäftsführer von Rapid-I und Zoltán Prekopcsák, Geschäftsführer von Radoop. Sie erläutern nicht nur, was die Anwender von ihrer Zusammenarbeit erwarten dürfen, sondern auch, wo es im Big-Data-Umfeld noch hakt.

Wie kam die Zusammenarbeit zwischen Radoop und Rapid-I zustande?

Zoltan Prekopcsák: Wir sind langjährige Anwender von RapidMiner und haben tolle Gespräche mit Rapid-I-Leuten bei Business-Intelligence-Konferenzen und bei den RCOMM-Konferenzen geführt. Beide Arbeitsteams haben einen akademischen Hintergrund und wir teilen eine Begeisterung für Datentechnologien, was die Zusammenarbeit sehr leicht gemacht hat.

Eines der ersten Ergebnisse dieser Zusammenarbeit war die Rapid-Miner-Extension Radoop. Was bietet diese Extension ihren Anwendern?

Ingo Mierswa: Radoop verbindet die Stärken von Rapid Miner und Hadoop. Das Ergebnis ist eine Rapid-Miner-Extension für die Aufbereitung und die Durchführung von ETL, Datenanalysen und Prozessen des maschinellen Lernens über Hadoop. Radoop integriert die hochoptimierten Datenanalysefähigkeiten von „Hive“ und „Mahout“ eng in die benutzerfreundliche Rapid-Miner-Oberfläche. Entstanden ist dadurch eine leistungsfähige und bedienungsfreundliche Datenanalyse-Lösung für Hadoop.

Zoltan Prekopcsák:: Radoop ermöglicht es Rapid-Miner-Anwendern, auf die in Hadoop-Clustern gespeicherten großen Daten zuzugreifen und diese zu analysieren. Jetzt ist es möglich, auch Terabyte und Petabyte von Daten von derselben intuitiven Oberfläche aus zu analysieren. Man kann ETL und Data-Mining-Prozesse konstruieren, die auf dem Hadoop-Cluster laufen, sowie Beispieldaten in Rapid-Miner visualisieren.

Zoltán Prekopcsák, Geschäftsführer von Radoop: "RapidMiner-Anwender können sehr schnell lernen, mit Radoop umzugehen. Für sie stellt es eine natürliche Art dar, auf ihre größeren Datensätze zuzugreifen und diese zu analysieren. Für andere hingegen stellt die Kombination aus Radoop und RapidMiner eine Gesamtlösung für alle Datenmengen und Datenanalyseprobleme dar."
Zoltán Prekopcsák, Geschäftsführer von Radoop: "RapidMiner-Anwender können sehr schnell lernen, mit Radoop umzugehen. Für sie stellt es eine natürliche Art dar, auf ihre größeren Datensätze zuzugreifen und diese zu analysieren. Für andere hingegen stellt die Kombination aus Radoop und RapidMiner eine Gesamtlösung für alle Datenmengen und Datenanalyseprobleme dar."
(Radoop)
Radoop beseitigt nahezu das Speicherlimit für Rapid Miner und ermöglicht es diesem, auf sehr große Datensätze zu skalieren. Wir haben Rapid Miner für viele unserer Data-Mining-Projekte eingesetzt. Er war sehr anwenderfreundlich, aber einige unserer Projekte brachten sehr große Datenbanken mit sich, denen Rapid Miner noch nicht gewachsen war.

Wir haben begonnen, komplizierte verteilte Technologien wie Hadoop einzusetzen, aber die Arbeit damit hat sich als sehr schwierig erwiesen. Wir wollten diese Lücke mit Radoop füllen und gleichzeitig die Leistungsstärke verteilter Systeme und eine bedienungsfreundliche Oberfläche zur Verfügung stellen.

Welche Auswirkung wird dieses Produkt auf Big-Data-Analysen haben?

Ingo Mierswa: Während andere Unternehmen noch von Big Data und der Überwindung damit verbundener Probleme sprechen, freuen wir uns, bereits die Lösung für die einfache Konstruktion von Datentransformationen und analytischen Prozessen auf Basis von Hadoop bekannt geben zu können.

Dr. Ingo Mierswa ist Geschäftsführer von Rapid-I: "Ich habe Zoltan zum ersten Mal bei unserer jährlichen Anwenderkonferenz RCOMM kennengelernt, die 2010 unweit des Rapid-I-Gesellschaftssitzes in Dortmund stattgefunden hat. Zoltan hat seine Arbeit im Bereich Big-Data-Analyse präsentiert. Obwohl RapidMiner mehrere Lösungen für das Arbeiten auf sehr großen Datensätzen anbietet, haben sich Zoltan und sein Radoop-Team der Herausforderung gestellt, auf Basis der neuesten Entwicklungen auf dem Big-Data-Gebiet eine noch bessere Lösung zu entwickeln. Die Ergebnisse waren und sind weiterhin sehr positiv und ich persönlich freue mich sehr über die Zusammenarbeit."
Dr. Ingo Mierswa ist Geschäftsführer von Rapid-I: "Ich habe Zoltan zum ersten Mal bei unserer jährlichen Anwenderkonferenz RCOMM kennengelernt, die 2010 unweit des Rapid-I-Gesellschaftssitzes in Dortmund stattgefunden hat. Zoltan hat seine Arbeit im Bereich Big-Data-Analyse präsentiert. Obwohl RapidMiner mehrere Lösungen für das Arbeiten auf sehr großen Datensätzen anbietet, haben sich Zoltan und sein Radoop-Team der Herausforderung gestellt, auf Basis der neuesten Entwicklungen auf dem Big-Data-Gebiet eine noch bessere Lösung zu entwickeln. Die Ergebnisse waren und sind weiterhin sehr positiv und ich persönlich freue mich sehr über die Zusammenarbeit."
(Bild: Rapid-I)
Rapid Miner + Radoop bilden die weltweit erste firmentaugliche Lösung für Big-Data-Analysen auf Basis von Hadoop. Die meisten aktuellen Initiativen zielen auf die infrastrukturelle Ebene von Hadoop ab. Radoop hingegen hat das Ziel, dem Analysten bei seiner täglichen Arbeit – unter Verzicht auf jegliche Codierung - zu unterstützen.

Zoltan Prekopcsák:: Sehe ich auch so. Big-Data-Tools sind heute äußerst kompliziert, müssen manuell definiert werden und erfordern zudem Programmierkenntnisse. Experten sind also schwer zu finden. Mit ihrer grafischen Drag&Drop-Benutzeroberfläche zur Definition von Workflows erleichtern Radoop und Rapid Miner Big-Data-Analysen erheblich. Viele Unternehmen haben bereits den einen oder anderen Big-Data-Experten, aber die sind dann die einzigen, die auf Daten zugreifen und diese analysieren können. Mit Radoop soll dies noch vielen Analysten – auch Nichttechnikern – ermöglicht werden.

Ingo Mierswa: Unternehmen, die Big Data noch nicht analysieren, bekommen hier eine Gelegenheit dazu. Dank der Einfachheit von Radoop können sie ihre ersten Schritte auf diesem Gebiet machen, ohne für diese Aufgabe extra Experten anstellen zu müssen. Auch wenn die Auswirkung für Big-Data-Anfänger am größten sein könnte, bietet Radoop so viele Funktionalitäten und Abkürzungen für typische Aufgaben an, dass auch Experten viel produktiver werden.

Wie wird sich Big Data entwickeln?

Ingo Mierswa: Marktwünsche nach deskriptiver Analyse auf Basis von herkömmlichen Methoden wie OLAP entwickeln sich zur Zeit zu Wünschen nach prädiktiver oder gar präskriptiver Analyse. Statt auf Fragen zu antworten wie „Was ist passiert?“ kann man jetzt Antworten auf Fragen erwarten wie „Was wird passieren?“ oder „Was kann ich jetzt am besten tun?“.

Techniken aus diesen Bereichen setzen fundierte Kenntnisse von Methoden aus der Statistik und der Informatik voraus. Wie Gartner vor kurzem betont hat, stellt der Mangel an Experten auf diesem Gebiet einen großen Engpass dar, der Unternehmen davon abhält, diese neuen Methoden sowie die Software-Tools, die diese Methoden verwenden, anzunehmen. Als erste Gesamtlösung, die fortgeschrittene Datenanalysen auf Basis von Hadoop vereinfacht, soll Radoop diese Situation komplett ändern.

Zoltan Prekopcsák: Es gibt nun einen großen Rummel um Big Data und wir werden in den kommenden Jahren sowohl viele Erfolge als auch viele Misserfolge beobachten. Analysten müssen darauf achten, dass sie nicht Qualität mit Quantität ersetzen. Mehr Daten sind nicht unbedingt besser. Die Leute müssen verstehen, dass Big-Data-Tools wie Hadoop nur die Infrastruktur zur Verfügung stellen und sie noch die besten Anwendungsfälle für ihren Betrieb herausfinden müssen. Big Data hat zwar ein sehr großes Potenzial, ist aber kein Zauberstab, der jedes Problem löst.

Ingo Mierswa: Für mich als Datenanalysten, der schon seit fast 15 Jahren Techniken aus Data Mining und Text Mining verwendet, ist Big Data eigentlich nichts Neues. Big Data ohne Analysen nützt überhaupt nichts. Die analytischen Ergebnisse sind wichtig, um neue Geschäftschancen oder Bedrohungen im Voraus zu identifizieren. Deshalb bin ich natürlich sehr glücklich, dass der Bedarf an Analysen jetzt allgemein als eines der wichtigsten Themen für die Informatik der Zukunft angesehen wird.

Was sind für Sie die großen Big-Data-Herausforderungen?

Zoltan Prekopcsák:: Für mich sind die zwei wichtigsten Herausforderungen die Kompliziertheit aktueller Werkzeuge und der Mangel an Leuten, die diese bedienen können. Es gibt einen erheblichen Mangel sowohl an Analyseexperten als auch an Managern mit Datenkenntnissen, was den Erfolg mit großen Datenprojekten erschwert. Ich bin überzeugt, dass Radoop und RapidMiner gute Arbeit leisten, um die mit großen Daten verbundenen Komplikationen zu verringern, damit mehr Leute jetzt auf große Datensätze zugreifen und diese analysieren können.

Ingo Mierswa: Ein weiterer wichtiger Aspekt bei Big Data ist der Umstieg von strukturierten Daten auf halbstrukturierte, poly-strukturierte und auch vollständig unstrukturierte Daten. Die Daten sind nicht mehr Teil eines Data Warehouses mit einem Data-Mart, sondern werden auf mehrere Stellen verteilt – und sind manchmal nicht einmal mehr im Tabellenformat. Unstrukturierte Daten wie Textsammlungen stellen eine ganz spezielle Herausforderung für Big-Data-Analysen dar.

Sie haben neben großen Datenmengen und poly-strukturierten Daten auch von fortgeschrittenen Analysen gesprochen. Was ermöglicht Rapid Miner?

Ingo Mierswa:: Was Textdaten angeht: Alleine von den Support-Vektor-Maschinen bieten wir sieben Varianten an, die insbesondere bei Textklassifikationsaufgaben sehr leistungsfähig sind. Die meisten anderen Lösungen auf dem Markt bieten nicht einmal eine einzige Version dieser leistungsfähigen Lerntechnik an.

Das ist bei anderen Methoden auch der Fall: Insgesamt stellt Rapid Miner mehr als 250 Methoden für Datenmodellierung und hunderte Vorgänge für Datentransformationen bereit. Und jetzt fügt Radoop neue Vorgänge hinzu, die dem Zugriff auf Daten aus Hadoop und der Anwendung von Hadoop-Clustern für Berechnungen und Datentransformationen dienen.

Zoltan Prekopcsák: Dank der engen Integration von Rapid Miner und Radoop kann der Benutzer verteilte und speicherinterne Analysen auch im selben Prozess mit derselben Oberfläche durchführen. Dies ist eine sehr leistungsfähige Paketlösung, die sonst keiner anbietet.

Welches sind die Bereiche, in denen Radoop die größten Vorteile aufweisen wird?

Zoltan Prekopcsák: Radoop weist dort die größten Vorteile auf, wo große Datensätze häufig vorkommen. Wir konnten ein ungeheures Datenwachstum bei Web-Unternehmen wie sozialen Netzen und Social Games beobachten und außerdem haben auch Webseiten mit Millionen Besuchern Probleme bei der Speicherung und Analyse von Informationen zum Verhalten ihrer Kunden. Sie benötigen eine skalierbare Lösung, die mit ihrem schnellen Wachstum mithalten kann. Damit ist die nahezu unbegrenzte Skalierbarkeit von Radoop für sie sehr interessant.

Ingo Mierswa:: Es haben viele Unternehmen aus dem Finanzsektor Interesse gezeigt, bei denen historische Daten in riesigen Mengen vorhanden sind und dazu dienen können, künftige Ergebnisse zu verbessern, insbesondere durch bessere Modelle für die Kreditwürdigkeitsprüfung oder für Churn Prevention. Uns wurde vom Sektor der Kranken- und Gesundheitspflege beträchtliches Interesse gezeigt sowie von der Telekommunikationsbranche und dem Einzelhandel. Viele dieser Sektoren haben schon jahrelang große Datensätze; sie benötigen nichts mehr als ein einfaches Werkzeug, um aus diesen Daten Nutzen zu ziehen.

Was ist für die Zukunft geplant?

Zoltan Prekopcsák:: Radoop befindet sich noch in einer privaten Betaphase und wir visieren eine öffentliche Freigabe im 2. Quartal 2012 an. Wir werden nun für mehr Funktionalitäten für Predictive Analytics auf Big Data und höhere Kompatibilität mit externen Systemen sorgen sowie für eine bahnbrechende neue Funktionalität, die ich vorerst nicht bekanntmachen darf. Es wird wahrscheinlich die Art verändern, wie Unternehmen über ihre Big-Data-Infrastruktur denken.

Ingo Mierswa:: Rapid-I wird Rapid Miner weiterhin um neue analytische Algorithmen erweitern und seinem Weg treu bleiben, die flexibelste und leistungsfähigste aber gleichzeitig auch bedienungsfreundlichste Lösung anzubieten. Die nächste große Rapid-Miner-Version beinhaltet zum Beispiel eine neue interne Datenbehandlung sowie eine Unterstützung für Parallel-Stream-Handling. Diese Verbesserungen stellen ebenfalls einen unmittelbaren Nutzen für Radoop-Anwender dar.

Zoltan Prekopcsák: Zu unseren kurzfristigen Zielen gehört die Integration von Radoop mit der RapidMiner-Server-Version, die RapidAnalytics genannt wird. Radoop und RapidAnalytics würden die Planung von Big-Data-Prozessen sowie die Zusammenarbeit zwischen Analysten ermöglichen. Das wird wieder eine super leistungsfähige Kombination, die Endanwendern Ergebnisse aus Big-Data-Analysen innerhalb von Reports oder Dashboards über die Server-Web-Schnittstelle zur Verfügung stellen kann.

(ID:36561910)