Definition: Datenintegration aus mehreren Quellen Was ist ETL (Extract, Transform, Load)?

Von zeroshope 3 min Lesedauer

Anbieter zum Thema

Extract, Transform, Load: ETL beschreibt einen mehrstufigen Prozess, bei dem Daten aus unterschiedlichen Quellen in ein (Cloud)-Data-Warehouse übertragen werden. Einsatz findet sich vor allem im Big-Data- und Business-Intelligence-Umfeld.

Extract, Transform, Load: Typische Anwendungsbereiche von ETL sind Big-Data-Anwendungen und die Analyse von Geschäftsdaten, Stichwort Business Intelligence.(Bild:  frei lizenziert © Gerd Altmann /  Pixabay)
Extract, Transform, Load: Typische Anwendungsbereiche von ETL sind Big-Data-Anwendungen und die Analyse von Geschäftsdaten, Stichwort Business Intelligence.
(Bild: frei lizenziert © Gerd Altmann / Pixabay)

ETL ist das Akronym für die englischsprachigen Vokabeln „Extract, Transform, Load“ bzw. die deutschsprachigen Ausdrücke „Extrahieren, Transformieren, Laden“. Die Abkürzung beschreibt einen mehrschrittigen Prozess, um strukturiert Daten aus verschiedenen Quellen zu sammeln und an ein Data-Warehouse zu übermitteln. Hier sollen sie für die Weiterverarbeitung genutzt werden.

Insbesondere im Zusammenhang mit Big Data-Anwendungen und der Business Intelligence wird dieser Vorgang genutzt. Hier fallen regelmäßig Informationen von unterschiedlichen Ursprungsorten an, die in hoher Geschwindigkeit mit geringer Latenzzeit gebündelt werden müssen. Weitere Anwendungsbereiche sind:

  • verteilte Datenbankumgebungen,
  • Datenreplikationen aus Redundanz- und Sicherheitsgründen,
  • cloud-basierte Datenbanken,
  • Migration von Informationen zwischen einzelnen Anwendungen.

Die Schritte des ETL-Prozesses

Der ETL-Prozess wird in der Regel von einer spezialisierten Softwarelösung gesteuert und überwacht. Die Anwendung orientiert sich dabei an manuellen Eingaben. Ihre Arbeit kann aber auch weitgehend automatisiert werden. Die Extraktion ist in beiden Fällen der erste Schritt. Sie beginnt mit der Identifikation der benötigten Daten und ihren Standorten. Für eine Automatisierung wird außerdem ein Aktualisierungsrhythmus definiert. In einer festgelegten Frequenz extrahiert das System neue Daten. Zusätzlich sind ereignisgesteuerte Extraktionen möglich. Kommt es zu einem vorherbestimmten Vorfall, erfolgt die Datenentnahme.

Extrahieren

Wichtig ist, dass die Daten nicht synchron extrahiert werden sollten, um nicht das eigene Netzwerk zu überfordern. Dies bedeutet, dass die Extraktion nicht dann stattfindet, wenn die Quelldatenbanken für ihre reguläre Arbeit benötigt werden. Stattdessen ist ein asynchrones Vorgehen sinnvoller. Die Datenentnahme erfolgt in diesem Fall beispielsweise nachts. Die Extraktion wird zumeist nur in Teilbereichen der Quellsysteme vorgenommen.

Transformieren

Im zweiten Schritt übernimmt die eingesetzte Softwarelösung die Transformation. Sie passt die extrahierten Informationen an die Datenformate sowie das Schema des Zielsystems an. Idealerweise kommt es außerdem zu einer Bereinigung von fehlerhaften Daten. Duplikate werden überdies gelöscht. Eine Sortierung, Gruppierung und Aggregierung der transformierten Daten nimmt das eingesetzte Programm ebenfalls vor.

Laden

Im dritten und letzten Schritt kommt es zur Integration der transformierten und angereicherten Daten in das Zielsystem. Der Name rührt daher, dass Informationen in das Data Warehouse (oder eine andere Datenbank) geladen werden. Dabei muss das System die Integrität der Informationen sicherstellen. Dokumentationen (Protokolle und Loggings aller Änderungen) ermöglichen dies. Alte Datenbestände lassen sich so wiederherstellen, sollte dies nötig sein. Der Transfer der Daten erfolgt physisch.

Die Reihenfolge ist nicht immer zwingend

Nicht in jedem Fall müssen die drei Schritte in dieser Reihenfolge eingehalten werden. Vor der Transformation können die Informationen beispielsweise direkt als Rohdaten in das Zielsystem geladen werden. Sie werden nachlaufend bei Bedarf transformiert. Dann ist von ELT die Rede. Interessant ist dies, wenn schnell Sicherungen vorgenommen werden müssen - oder die Datenbestände erst einmal überprüft werden soll. Ergebnisse der Transformation und Rohdaten werden im identischen Data Lake gelagert.

Diese Eigenschaften sollten das eingesetzte ETL-System auszeichnen

Der zentrale Vorteil des ETL-Prozesses liegt in der Theorie auf der Hand. Alle wichtigen Daten stehen möglichst schnell für Analysen oder zur strukturierten Weiterverarbeitung zur Verfügung. Damit dies auch praktisch gelingt, muss das ETL-Systeme über spezifische Charakteristika verfügen:

  • Support von hybriden Cloud-Architekturen,
  • Kompatibilität mit möglichst vielen Cloud-Lösungen und Datenbanksystemen,
  • ausreichend hohe Leistung für die Verarbeitung großer Datenmengen,
  • benutzerfreundliche Bedienung.

Zusätzlich vorteilhaft ist es, wenn die Lösung ihrerseits außerdem über Analysewerkzeuge verfügt. Die einzelnen Schritte und der Fortgang des Prozesses sollten sich beispielsweise visualisieren lassen.

Microservices, Cloud Native, REST API , Kubernetes & Co.: Cloud Computing Wiki

Definitionen rund um Cloud ComputingVon AWS bis XaaS: Alle relevanten Schlagworte aus dem Bereich Cloud Computing finden Sie verständlich erklärt in unseren Definitionen. Ganz im Sinne eines kleinen, aber feinen Glossars lesen Sie hier neutral verfasste und leicht verständliche Erklärungen zu den wichtigsten Begriffen. Als Service für Sie haben wir die hier erklärten Begriffe in unseren Beiträgen auch direkt mit den zugehörigen Lexikoneinträgen verlinkt. So können Sie die wichtigsten Erläuterungen direkt dort nachschlagen.  

Zum Special: Definitionen rund um Cloud Computing

(ID:49526915)

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Cloud Computing

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung