Suchen

Auf die richtige Mischung kommt es an

Data Governance und Sicherheit bei Big Data Analysen

Seite: 2/2

Firma zum Thema

Wo entsteht die Verbindung?

Eine wichtige Fragestellung hierbei ist, wo die Daten aus den verschiedenen Quellen verknüpft werden. Einige Anbieter ermöglichen den Endanwendern, die verschiedenen Daten am Bildschirm zu mischen und zu analysieren.

Erst einmal müssen die Daten versiegelt bleiben.
Erst einmal müssen die Daten versiegelt bleiben.
(Bild: Pentaho)

Dieser Ansatz hat drei schwerwiegende Nachteile: Erstens, werden die Daten in diesem Falle nicht direkt an der Quelle abgeschöpft, sind also unter Umständen bereits nicht mehr aktuell. Zweitens verstehen Endanwender in den meisten Fällen nicht die den Daten unterliegende Semantik, was Data Governance und Sicherheit beeinträchtigten kann. Im schlimmsten Fall führt das drittens zu falschen Schlussfolgerungen und falschen Geschäftsentscheidungen.

Auch bei der Arbeit mit Big Data gilt, dass Daten-Aktualität, Qualität und Integrität gewährleistet sein müssen. Big Data Analyse ist kein magischer Prozess, wo aus der Haselnuss ein Ballkleid gezaubert wird. Fehlerhafte Daten bleiben fehlerhafte Daten, nur im größeren Ausmaße.

Fehler bleibt Fehler

Einen besseren Ansatz verspricht daher “Data Blending at the Source”, also das logische Verknüpfen der Daten möglichst nah an ihrer ursprünglichen Quelle.

Pentahos Data Blending ermöglicht zum Beispiel das Verknüpfen der Daten in der Transformationsphase des ETL-Prozesses. Der Daten Integrationsnutzer mischt dabei die verschiedenen Daten an ihrer Quelle und fasst sie in einer Transformation zusammen. Dabei lässt sich mit Pentaho die Transformation in einer automatisierten SQL-Umgebung durchführen, obwohl die Daten verschiedenster Herkunft sein können, wie z.B. NoSQL, Spreadsheets, Big Data, XML oder Web Services, um nur einige zu nennen.

Pentahos Data Blending ermöglicht zum Beispiel das Verknüpfen der Daten in der Transformationsphase des ETL-Prozesses.
Pentahos Data Blending ermöglicht zum Beispiel das Verknüpfen der Daten in der Transformationsphase des ETL-Prozesses.
(Bild: Pentaho)

Da die meisten Business Intelligence Tools sozusagen by-Default SQL nutzen, können die mit Pentaho erstellten logischen Datenverknüpfungen über eine Webschnittstelle jedem beliebigen BI Tool zur weiteren Analyse oder Reporting zur Verfügung gestellt werden.

Das Verknüpfen an der Datenquelle hat darüber hinaus den Vorteil, dass die zugrunde liegende Datensemantik gewahrt wird, so dass Datenqualität und –Integrität und damit Data Governance und Sicherheit gewährleistet bleibt.

Direkt an der Quelle

Durch das Data Blending direkt an der Quelle liegen die Daten beinahe in Echtzeit vor, da sie nicht erst zeitaufwendig in eine relationale Datenbank ein- und ausgelesen werden müssen. Geschäftsentscheidungen basieren damit auch tatsächlich auf den aktuellsten Daten.

Unternehmen und Institutionen, für die Datenaktualität, Data Governance und Sicherheit wichtig sind, sollten daher bei ihrer Wahl von Big Data Analyse Lösungen auf Anwendungen setzen, bei denen die Daten nicht vom Endanwender am Bildschirm gemischt werden, sondern die Data Blending an der Quelle erlauben.

Gerade wenn es darum geht mit sensiblen Kundendaten zu arbeiten, sollte dies oberste Priorität haben, damit die durch die Einsicht in die Datenverknüpfung gewonnenen Erkenntnisse über die Kunden nicht durch einen Mangel an Vertrauen wieder verspielt werden.

Die Autorin:

Barbara Radatz ist Territory Sales Manager bei Pentaho Deutschland.

(ID:42613685)