Im Test: Talend Enterprise Data Integration Big Data Edition

Datenverarbeitung im ganz großen Stil

Seite: 2/4

Talend Enterprise Data Integration arbeitet als Code Generator. Die Anwender müssen für den Einsatz der Lösung lediglich eine Datenquelle definieren, beispielsweise eine CSV-Datei oder eine Datenbank, und angeben, wie das Produkt mit den Daten umzugehen hat. Sobald die Datenquelle existiert, können die Benutzer sie als Icon im Arbeitsbereich platzieren.

Anschließend ist es möglich, die durchzuführenden Arbeitsschritte festzulegen. Hier steht den Usern eine Vielzahl unterschiedlicher Optionen zur Verfügung. Zum Beispiel haben sie die Möglichkeit, Daten zu filtern, zu sortieren, zu ersetzen, umzuwandeln, zu splitten, zusammenzuführen und zu konvertieren. Darüber hinaus lassen sich die Daten auch über eine Map-Funktion transformieren, also nur bestimmte Datenfelder auswählen, die Datenfelder anders anordnen, zusätzliche Daten – wie eine Nummerierung – automatisch hinzufügen und vieles mehr. Für diese ganzen Umwandlungsfeatures stehen auch wieder Icons bereit, die lediglich in den Arbeitsbereich gezogen werden müssen und dann dort konfigurierbar sind.

Bildergalerie
Bildergalerie mit 5 Bildern

Sobald fest steht, in welcher Form das Werkzeug die Informationen verarbeiten soll, geht es an die Definition des Exports. Dafür bietet Talend Konnektoren an, die den Kontakt zu den unterstützten Zielsystemen, wie Informix oder Hadoop, herstellen. Die Konnektoren visualisiert die Data Integration-Lösung ebenfalls durch Icons, die nach einem Drag-and-Drop in den Arbeitsbereich zur Verfügung stehen und sich dort auch konfigurieren lassen. Die Konfigurationsoptionen hängen hier wieder vom Ausgabetyp ab, bei einem Excel-Sheet reicht es beispielsweise, den Ausgabepfad anzugeben.

Der Datenfluss zwischen den einzelnen Icons wird durch Linien repräsentiert, die die zuständigen Mitarbeiter in den meisten Fällen einfach mit der Maus ziehen können (manchmal ist es auch nötig, bestimmte Verbindungstypen aus einem Menü auszuwählen). Wenn all diese Schritte erledigt wurden, lässt sich der Job starten. Daraufhin erzeugt das Data Integration-Tool den zum Ausführen der Aufgabe erforderlichen Code, startet ihn und führt die Datenumwandlung durch. Der generierte Code kann Java oder SQL sein und für Hadoop zusätzlich noch Map Reduce, Pig Latin, HiveQL und mehr je nach genutzter Technologie.

Dank des Ansatzes, die einzelnen Arbeitsschritte durch Icons zu symbolisieren, denen die Anwender nur die Rahmenbedingungen mitteilen müssen, und den Code dann automatisch zu erzeugen, haben auch Mitarbeiter ohne Programmierkenntnisse die Chance, komplexe Datenverarbeitungsschritte durchzuführen, die viel Code benötigen.

Die eben skizzierten Arbeitsschritte waren nur ein einfaches Beispiel, es ist auch möglich, mit dem Produkt viel komplexere Aufgaben durchzuführen, wie beispielsweise den Import von Daten mit anschließendem Mapping bestimmter Felder, dem Umwandeln einiger Datentypen und dem Sortieren der überarbeiteten Ausgabe vor dem Export.

(ID:34933460)