Suchen

Im Test: Talend Data Quality v4 (Teil 3) Arbeiten mit dem Data Profiler, Matching und Record Consolidation

Autor / Redakteur: Dr. Götz Güttich / Florian Karlstetter

Wie lässt sich eine hohe Datenqualität sicherstellen? Dieser Frage ist das Institut zur Analyse von IT-Komponenten (IAIT) nachgegangen und hat am Beispiel der Enterprise Edition von Talend Data Quality wichtige Funktionen vorgestellt und beschrieben. Der dritte und letzte Teil der Reihe beschäftigt sich mit den Betriebs-Modi Data Profiler, Matching und Record Consolidation.

Firmen zum Thema

Talend Data Quality v4 im Praxistest.
Talend Data Quality v4 im Praxistest.
( Archiv: Vogel Business Media )

Nach einer allgemeinen Einführung in das Thema Datenqualität (Teil 1) und dem Testaufbau der Enterprise Edition von Talend Data Quality und der Data Stewardship Console im zweiten Teil beschäftigt sich der dritte und letzte Teil der Reihe mit den Funktionen Data Profiler, Matching und Record Consolidation.

Der Data Profiler

Wenden wir uns jetzt dem zweiten Betriebsmodus des Tools zu, dem Data Profiler. Über diesen lassen sich Datenanalysen durchführen, die beispielsweise Aufschluss darüber geben, wie viele Städtenamen in einer Datenbank fehlerhaft sind oder wie oft die Syntax der Einträge im E-Mail-Adressfeld falsch ist. Die Ergebnisse des Profilings sind folglich die Grundlage für die Record Consolidation.

Bildergalerie
Bildergalerie mit 7 Bildern

Wesentliche Funktionen des Data Profiler-Modus von Talend Data Quality finden sich auch in dem Open-Source-Werkzeug Talend Open Profiler, das auf der Website des Unternehmens zum Download bereit steht. Dieses ist allerdings nicht dazu in der Lage, Reports zu erzeugen (und so einen Überblick über alte Analyseergebnisse verfügbar zu machen), Analysen jobgesteuert anzustoßen und aus den Analyseergebnissen automatisch Regeln für die Datenintegration abzuleiten.

Der Data Profiler in Talend Data Quality gibt die Ergebnisse nicht nur in tabellarischer Form aus, sondern stellt diese auch grafisch dar. (Bild: Talend)

Mit Hilfe des genannten Modus führten wir nun im Test das Profiling durch. Über das Werkzeug lassen sich neben den bereits beschriebenen Aufgaben unter anderem auch unvollständige Adressen und Datenfelder herausfinden, die mit einem Leerzeichen beginnen. Die Analysen arbeiten mit Objekten wie Datenbankverbindungen und wenden zum Erkennen von Abweichungen Muster und Indikatoren wie maximale Länge, durchschnittliche Länge und ähnliches an.

Die Ergebnisse erscheinen nicht nur in tabellarischer Form (zum Beispiel 40 Prozent der E-Mail-Adressen sind fehlerhaft), sondern auch als grafische Darstellungen, die zum Beispiel die Korrelationen zwischen Postleitzahlen und Städtenamen zeigen.

Talend Data Quality unterstützt bei den Analysen nicht nur Datenquellen aus beliebigen SQL-Datenbanken, sondern ist auch dazu in der Lage dazu, Daten in CSV-Dateien zu untersuchen.

Um eine Analyse zu erstellen, müssen die zuständigen Mitarbeiter lediglich mit der rechten Maustaste auf das betroffene Feld klicken und den Befehl „Neue Analyse“ aufrufen. Dann startet ein Wizard, der sie zunächst nach dem Typ der Untersuchung fragt (Connection-, Catalog-, Schema-, Table-, Column-, Redundancy-oder Column-Correlation-Analysis). Dann können sie der Analyse einen Namen geben und die zu untersuchenden Komponenten hinzufügen. Es ist auch möglich, die Abfrage mit den oben bereits erwähnten Indikatoren zu versehen.

Nach einem Klick auf den Run-Button läuft die Analyse durch und gibt ihre Ergebnisse wie beschrieben in Form von Tabellen und Grafiken aus. Im Test hatten wir unsere Analysen schnell erstellt und konnten zügig auf die Ergebnisse zugreifen – sowohl bei unserer eigenen Datenbank als auch bei den Testdaten.

Zum Profiling gehören auch Reportfähigkeiten. Deswegen bietet Talend Data Quality die Möglichkeit, PDF-Reports und ähnliches zu Analysen zu erstellen. Die Reports lassen sich aus den Analysen erzeugen und jederzeit mit anderen Mitarbeitern teilen.

weiter mit Funktionen wie Matching, Record Consolidation und Data Stewardship Console.

(ID:2051899)