Anbieter zum Thema
Das Matching
Wenn das Profiling abgeschlossen wurde, kann es daran gehen, das Matching durchzuführen, um doppelte Einträge aus den Datenbanken zu entfernen. Dazu stellt der Data Profiler den Befehl „Remove Duplicats“ zur Verfügung, der automatisch einen Reinigungsjob für die gefundenen doppelten Einträge generiert. Im Test entfernten wir auf diese Weise schnell und einfach sämtliche Doubletten aus unserer Datenbank. Wie in der Einleitung bereits angesprochen, ist es aber sinnvoll, beim Erkennen der Doubletten über die Score-Funktion gewisse Grenzwerte zu setzen und inkonsistente Daten in der Data Stewardship Console manuell zu überprüfen, damit keine wichtigen Einträge verloren gehen.
Über die Matching-Funktion lässt sich auch verhindern, dass überhaupt Doubletten entstehen. So ist es beispielsweise denkbar, einen Task zu erstellen, der eingehende neue Adressdaten mit einer Referenztabelle vergleicht und die neuen Informationen nur dann in die Datenbank einträgt, wenn sie dort noch nicht vorhanden sind. Verschiedene Matching-Algorithmen sorgen in diesem Zusammenhang beispielsweise für das automatische Erkennen von Buchstabendrehern und ähnlichem.
Record Consolidation

Mit ähnlichen Methoden wie beim Matching lassen sich auch automatisch Daten aus verschiedenen Quellen zusammenführen, um einheitliche und vollständige Datensätze zu erhalten. Zusätzlich stehen auch Aliastabellen zur Fehlerkorrektur zur Verfügung, etwa um das Format einer Bestellnummer zu vereinheitlichen (12-345 statt 12345). Dank dieser Funktionen sind viele Arbeitsschritte automatisierbar und Grenzwerte helfen wiederum dabei, unklare Datensätze auszufiltern und an die Data Stewardship Console zur Weiterverarbeitung zu übergeben.
Im Test verhielten sich die Jobs wie erwartet und lösten die offensichtlichen Unklarheiten automatisch auf, während sie zweifelhaften Fälle der Console überließen. Es ist in der Praxis aber sinnvoll, vor der Arbeit mit echten Daten erst einmal ein paar Probeläufe in einer Testumgebung durchzuführen, um die Grenzwerte optimal festzulegen. Sonst zerstört das System möglicherweise einige Datensätze oder es bleibt zu viel Handarbeit liegen.
Die Data Stewardship Console
Kommt die Datenqualitätslösung bei ihren Analysen zu keinen klaren Ergebnissen, so sollten die zuständigen Mitarbeiter die übrig gebliebenen unklaren Einträge wie bereits angesprochen manuell prüfen, vervollständigen und in die Datenbank zurückschreiben. Um diesen Schritt auf einfache Weise von einem beliebigen Ort aus durchführen zu können, steht die im zweiten Teil der Reihe näher vorgestellte Data Stewardship Console zur Verfügung. In unserem Test hatten wir zu diesem Zeitpunkt bereits mit den eben beschriebenen Methoden diverse Datenanalysen abgeschlossen, bei denen etliche Datensätze angefallen waren, die das System bei unseren Einstellungen nicht von selbst bereinigen konnte.
Folglich loggten wir uns nun mit unserem Webbrowser über die URL
http://{IP-Adresse des Servers}:8080/org.talend.datastewardship/login.jsp
bei der Data Stewardship Console ein. Danach fanden wir uns in einem Verwaltungstool wieder, das am oberen Rand über eine Menüzeile und auf der linken Seite über eine Baumstruktur verfügte. Die Menüzeile umfasste eine Suchfunktion und die Möglichkeit, die Sprache des Interfaces umzustellen (Englisch oder Französisch, Übersetzungen in viele andere Sprachen sind ebenfalls verfügbar, diese erstellt Talend in Zusammenarbeit mit der Community). Die Baumstruktur enthielt die offenen Aufgaben.
weiter mit: Arbeiten mit der Data Stewardship Console und abschließendes Fazit
(ID:2051899)