ETL-Prozesse einfach gestalten

Datenintegration in der Hybrid Cloud-Ära

| Autor: Florian Karlstetter

Stitch Data Loader von Talend: Self-Service-Datenintegration für Cloud Data Warehouses.
Stitch Data Loader von Talend: Self-Service-Datenintegration für Cloud Data Warehouses. (Bild: Talend)

Das Thema Datenintegration gehört mit zu den größten Herausforderungen beim Management von hybriden und Multi-Cloud-Umgebungen. Schließlich geht es darum, Daten aus verschiedensten Quellen möglichst verlässlich aufzubereiten und zusammenzuführen. Nur wenn der vorhandene Datenpool, neuenglisch auch als „Data Lake“ bekannt, aktuell und vollständig ist, lassen sich daraus verlässliche Analysen ableiten.

In Zeiten in denen Cloud Computing in immer mehr Bereiche der IT-Infrastruktur integriert wird, wird es naheliegenderweise auch immer komplizierter, die einzelnen Services miteinander, teils untereinander zu verbinden, aus immer mehr Datenquellen den jeweils gewünschten Pool zu erstellen und bei all den unterschiedlichen Schnittstellen den Überblick nicht zu verlieren. Früher gab es dafür eigene IT-Abteilungen, in denen Data Scientists die Fachabteilungen mit den jeweils nötigen Informationen versorgten.

Heute ist es aber meist nicht mehr nur eine zentrale Datenbank, über die man - nach Definition und Eingabe der entsprechenden Filter - das gewünschte Resultat erzielen kann. Vielmehr geht es darum, all die Daten, die verstreut von unterschiedlichsten Cloud-Applikationen erzeugt werden, wieder zusammenzuführen, um sie für Auswertungen oder Analysen nutzbar zu machen.

Je mehr Cloud Services eingesetzt werden, desto höher ist der Aufwand der individuellen Anbindung. Da liegt es nahe, den Fachabteilungen die Entscheidung zu überlassen, welche Daten gerade gefragt sind, um sie dann möglichst einfach per Self Service in ein Cloud Data Warehouse oder - neuenglisch - in einen Data Lake zu überführen.

Mit der Übernahme von Stich hat sich Talend im November 2018 einen solchen Lösungsansatz gesichert und mittlerweile ins eigene Portfolio integriert. Stitch ist eine Cloud-first, entwicklerorientierte Plattform, mit der sich schnittstellenbasiert Daten aus beliebigen Cloud-Quellen in eigene Datenbanken zur weiteren Bearbeitung übertragen lassen. All das, dank vorgefertigter Templates intuitiv und selbst für unerfahrene Anwender schnell einsetzbar.

Die notwendigen Mechanismen

Mit dem Stitch Data Loader lassen sich Daten aus über 90 Quellen innerhalb weniger Minuten in eine Data Warehouse-Umgebung übertragen. Unterstützt werden alle großen Plattformen wie Microsoft Azure SQL Data Warehouse, Amazon Redshift und Amazon S3, Google Big Query oder auch Snowflake und PostgreSQL oder data.world DW. Dabei führt der Stitch Data Loader Datentyptransformationen zwischen Quelle und Ziel, Schemaänderungen, Sicherheitsfunktionen und das Laden auch größter Datenmengen transparent durch. Eine integrierte Planungsfunktion unterstützt dabei, die Cloud-Daten kontinuierlich auf dem aktuellen Stand zu halten.

Talend positioniert Stitch auch für unerfahrene Anwender, zumindest was die vorgefertigten Konnektoren und deren Grundfunktionalität angeht.
Talend positioniert Stitch auch für unerfahrene Anwender, zumindest was die vorgefertigten Konnektoren und deren Grundfunktionalität angeht. (Bild: Talend)

Die Erfassung von Daten und erforderliche Skalierungen erledigt Stitch mit nur wenigen Klicks. Alle Vorgänge durchlaufen einen reibungslosen Prozess. Einige Konnektoren von Stitch bietet Talend auch kostenlos an, zusätzlich gibt es eine kostenlose Trial-Version, 5 Millionen Zeilen pro Monat sind dabei stets kostenlos erhältlich. Das dürfte für eine Evaluation meist völlig ausreichen.

Der Stitch Data Loader verbindet sich mit verschiedensten SaaS-Anwendungen, Datenbanken und Cloud-Datenquellen wie MySQL, Salesforce, Stripe, aber auch Google AdWords, Facebook Ads, Hubspot bis hin zu Zapier. Die komplette Übersicht der unterstützten Datenquellen gibt es auf der Website von Stitchdata.com.

Mögliche Einsatzszenarien

Neben den klassischen Anwendungsgebieten wie der Datenintegration für Analyse und Reporting lassen sich mit Stitch im Zusammenspiel mit weiteren Talend-Lösungen auch neue Technologien wie Machine Learning evaluieren und für das eigene Unternehmen nutzen. Auch hier reduziert Talend dank Self Service-Komponenten die Komplexität: Developer und Data Scientists müssen sich nicht mit der Entwicklung von geeigneten Modellen vertraut machen, sondern können auf benutzerfreundliche ML-Standardkomponenten zurückgreifen.

Talend bietet hier vorgefertigte „Out-of-the-Box“-Komponenten, die schnell und einfach integriert werden können. Dies erlaubt es Datennutzern, unabhängig von ihrem Kenntnisstand, mit Algorithmen zu arbeiten – ohne dass sie wissen müssen, wie ein Algorithmus funktioniert oder wie er konstruiert ist. Gleichzeitig können Experten diese Algorithmen je nach Bedarf anpassen, da Basis-Komponenten aus dem Talend-Portfolio auch als Open Source zur Verfügung stehen.

Ergänzendes zum Thema
 
Über Talend

Fazit

„Extract, Transform, Load“ (ETL) hat im Multi-Cloud-Zeitalter einen ganz besonderen Stellenwert. Der „Komplexität den Schrecken nehmen“ gehört ein Stück weit mit zur Unternehmensphilosophie von Talend. So lassen sich Datenintegration und Datenmanagement in Hybrid und Multi-Cloud-Szenarien mit Talend komfortabel orchestrieren und um neue Technologien wie Machine Learning anreichern. Zusätzlich adressieren die Lösungen und Plattformen von Talend weitere wichtige Faktoren wie Verlässlichkeit der Daten (Trust), Governance (Rückverfolgbarkeit) und Geschwindigkeit.

Cloud-Migration und weitere Spielarten der Portierung von IT-Ressourcen

Definition: Migration im IT-Umfeld - ETL, Cloud & Co.

Cloud-Migration und weitere Spielarten der Portierung von IT-Ressourcen

20.08.19 - Der Begriff Migration beschreibt verschiedenste Umstellungs- oder Verschiebeprozesse kompletter IT-Systeme oder einzelner Bestandteile davon – seien es Daten, Anwendungen, Hardware oder Dienste. Oft wird in diesem Zusammenhang auch der Begriff Portierung verwendet. lesen

Kommentare werden geladen....

Kommentar zu diesem Artikel abgeben

Der Kommentar wird durch einen Redakteur geprüft und in Kürze freigeschaltet.

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Kontaktieren Sie uns über: support.vogel.de/ (ID: 45834588 / SOA)