Anbieter zum Thema
Mit Vergleichsalgorithmen zur Automatisierung
Bei Talends Data Quality besteht außerdem die Möglichkeit, Grenzwerte – so genannte Match Intervals - zu setzen. Kommt der Vergleichsalgorithmus beispielsweise zu 95 bis 100 Prozent zu dem Ergebnis, dass zwei Datensätze inhaltlich identisch sind, so kann er automatisch einen davon löschen. Liegt die Wahrscheinlichkeit lediglich bei 80 Prozent, so landen die betroffenen Einträge in einer Jobliste und einer der Unternehmensmitarbeiter muss sich die Informationen ansehen und selbst eine Entscheidung treffen. Auf diese Art und Weise lässt sich vermeiden, dass zu viel manuelle Arbeit anfällt, während gleichzeitig verhindert wird, dass das Data Quality Tool durch irgendwelche Automatismen wichtige Daten vernichtet.
Zum manuellen Nachbearbeiten inkonsistenter Daten stellt Talend die so genannte Data Stewardship Console bereit. Dabei handelt es sich um ein browser-basiertes Werkzeug, das den Anwendern alle Funktionen in die Hand gibt, um aus verschiedenen Informationen, die sich leicht unterscheiden und aus unterschiedlichen Quellen kommen, einen einheitlichen Datensatz zu erzeugen.

In der Praxis arbeitet Talend Data Quality in drei Schritten: Während des „Profilings“ – das dazugehörige Tool, der Talend Open Profiler steht übrigens unter einer Open-Source-Lizenz auf der Website des Herstellers bereit – lassen sich die in den Daten vorhandenen Probleme analysieren und Pläne zur Datenverbesserung aufstellen.
Beim „Matching“ entfernt das System Duplikate und bei der „Record Consolidation“ führt es Informationen aus verschiedenen Quellen zu einem standardisierten, einheitlichen Eintrag zusammen. Mit Talend Data Quality lassen sich übrigens nicht nur die im Unternehmen vorhandenen Daten säubern und auf den aktuellen Stand bringen, sondern es ist auch möglich, von außen gelieferte Daten – die möglicherweise in regelmäßigen Intervallen von einem Geschäftspartner kommen – automatisiert zu prüfen und so sicherzustellen, dass sie erst dann in der Datenbank landen, wenn sie den Kriterien der jeweiligen Organisation entsprechen.
Ausblick auf den zweiten Teil des Artikels
Dies war der Auftakt einer dreiteiligen Reihe zum Thema Datenqualität am Beispiel der Data Quality Plattform von Talend. Der zweite Teil des Beitrags geht auf die Funktionen der Talend Data Quality Enterprise Edition und der Data Stewardship Console ein und beschreibt den Testaufbau.
(ID:2051897)