Die Pandora Papers sind nicht nur ein Glanzstück des investigativen Journalismus, sondern zeigen auch, was in Sachen Datenjournalismus und Data Science möglich ist. Das Internationale Netzwerk Investigativer Journalisten (ICIJ) setzt dabei auf einen Mix aus ML-Kits, Visualisierungs-Tools und Graphtechnologie.
Der Autor: Michael Hunger ist Developer Relations bei Neo4j
(Bild: Neo4j)
Das Datenleak der Pandora Papers umfasst vertrauliche Unterlagen von 14 Finanzdienstleistern, Banken und Anwaltskanzleien, die im Auftrag ihrer Kunden Treuhandgesellschaften, Stiftungen und andere Körperschaften in Niedrig- oder Nichtsteuerländern gründen. Ziel der Offshore-Steueroasen ist es, die Identität der Eigentümer zu verschleiern und Gelder an den Aufsichtsbehörden vorbeizuschmuggeln. Unter den rund 27.000 Unternehmen und 29.000 Beneficial Owners finden sich auch 330 Politiker und Amtsträger aus fast 100 Ländern sowie Prominente wie Pep Guardiola, Ringo Starr oder Claudia Schiffer. Das älteste Dokument ist von 1970, die Mehrzahl der Datensätze stammt jedoch aus dem Zeitraum von 1996 bis 2020.
Herausforderung: 11,9 Millionen unstrukturierte Daten
Unstrukturiert und heterogen: Zusammensetzung der Pandora Papers
(Bild: Neo4j / ICIJ)
Die Untersuchung des 2,94 Terabyte großen Datenleaks stellt die bislang größte journalistische Zusammenarbeit der Welt dar. Mehr als 600 Journalisten von 150 Publikationen aus 117 Ländern beteiligten sich an der Recherche und Aufarbeitung. Die größte Herausforderung bei der Analyse: Die über 11,9 Millionen Datensätze waren weit gehend unstrukturiert. Mehr als die Hälfte (6,4 Millionen) lag als Text-Dokument vor – darunter mehr als vier Millionen PDF-Dateien, von denen einige mehr als 10.000 Seiten umfassten. Zu den Dokumenten gehörten Reisepässe, Kontoauszüge, Steuererklärungen, Gründungsurkunden, Immobilienverträge und Due-Diligence-Fragebögen. Zudem galt es, 4,1 Millionen Bilder und E-Mails auszuwerten, fast eine halbe Million Tabellenkalkulationen sowie Präsentationen und Audio- und Videodateien.
Die Struktur der Daten folgte außerdem keiner einheitlichen Linie und unterschied sich je nach Offshore-Anbieter. Manche Dokumente waren nach Kunden organisiert, andere nach den jeweiligen Standorten der Finanzdienstleister. Ein einziges Dokument konnte den E-Mail-Verkehr von mehreren Jahren beinhalten. Unterlagen gab es sowohl in digitalisierter Form, aber auch als Scans von Papierakten. In einigen Fällen mussten Tabellen erst rekonstruiert werden, um sie für die Analyse nutzen zu können. Ähnlich wurde auch bei handschriftlichen Notizen verfahren. Da die Dokumente zudem in unterschiedlichen Sprachen verfasst wurden – von Englisch und Spanisch über Russisch und Arabisch bis hin zu Koreanisch – war eine enge Koordination zwischen den weltweiten ICIJ-Partnern nötig. Insgesamt lagen nur vier Prozent der Dateien als strukturierte Daten vor, darunter Tabellenkalkulationen, csv-Dateien und einige dbf-Dateien.
Open-Source-Technologie-Stack
Das ICIJ verbrachte mehr als ein Jahr damit, die Daten zu strukturieren und für die Recherchearbeit der Journalisten aufzubereiten. Möglich wurde dies erst durch einen Mix aus unterschiedlichen Technologien. Dazu gehören:
die ICIJ-eigene Plattform Datashare, um Entitäten zu extrahieren, die Daten zu validieren und die Informationen mit den Journalisten weltweit zu teilen. Dabei entfernten die Data Scientists des ICIJ u. a. Duplikate und fassten die Daten in einer Master-Tabelle zusammen;
Phyton Data Science-Toolkits, um die Datenextraktion und -strukturierung so weit wie möglich zu automatisieren. In komplexeren Fällen kamen Machine-Learning-Verfahren und Analyse-Tools zum Einsatz, darunter die Software Fonduer und Scikit-learn, mit der relevante Abschnitte aus längeren Dokumenten identifiziert und isoliert werden konnten;
die native Graphdatenbank Neo4j in Verbindung mit Linkurious, um die Daten zu visualisieren und die Beziehungen zwischen den Daten – und damit das komplexe Netzwerk an Offshore-Accounts – abfragen zu können.
Datenmodell im Graphen: Entity (z. B. Briefkastenfirma), Mittelsmann (z. B. Anwaltskanzlei), Adresse und Kontaktperson
(Bild: Neo4j / ICIJ)
Erst nach dieser Strukturierung und Visualisierung konnten die Journalisten mit der eigentlichen investigativen Recherche beginnen. „Wir setzen Graphdatenbanken ein, um Verbindungen und Zusammenhänge aufzuspüren, die nicht offensichtlich sind“, erklärt Emilia Díaz Struck, Research Editor beim ICIJ und verantwortlich für die Region Lateinamerika. „Stößt man auf einen Stakeholder in einem Datensatz, ist oft nicht ersichtlich, ob es sich dabei um die gleiche Person handelt, die man bereits in einem anderen Datensatz ausgemacht hat. Im Graphen sehen wir diese Verbindungen sofort. Gerade bei der riesigen Datenmenge ist das Risiko hoch, etwas zu übersehen. Graphdatenbanken und ML helfen uns, Zusammenhänge aufzudecken, für die wir bei der manuellen Recherche wahrscheinlich Jahre bräuchten.“
Graphtechnologie im Kampf gegen Betrug und Geldwäsche
Graphdatenbanken kommen im Finanzsektor immer stärker zum Einsatz, wenn es darum geht, Betrugsfälle aufzudecken und regulatorische Auflagen zu erfüllen. Insbesondere die Bekämpfung von Geldwäsche (Anti-Money-Laundering, ALM) ist ein massives, globales Problem. Banken und sogenannte Verpflichtete im Nichtfinanzsektor (z. B. Immobilienbranche, Casinos, Juweliere, Auto- und Edelmetallhändler, Rechtsanwälte und Notare) unterliegen strengen Auflagen und sind dazu verpflichtet, verdächtige Transaktionen oder Geschäfte zu melden. Herkömmliche AML- und Compliance-Lösungen können jedoch mit der Dynamik krimineller Aktivitäten kaum noch mithalten.
Graphtechnologie bringt hier die nötige Flexibilität und Schnelligkeit. Soziale Netzwerkanalysen und Graph-Algorithmen sind in der Lage, verdächtige Muster zu erkennen, kriminelle Gruppen zu identifizieren und großangelegte Betrugskampagnen frühzeitig zu stoppen. Im Gegensatz zu einer relationalen Datenbank erfolgt die Abfrage in einer Graphdatenbank nahezu in Echtzeit – ein wesentlicher Vorteil für Compliance-Officer, die Verdachtsfälle so zeitnah untersuchen und an die entsprechenden Behörden übermitteln können.
Im Fall der Pandora Papers kündigte das ICIJ an, den gesamten Datensatz in wenigen Wochen über die Offshore-Leaks-Datenbank der Öffentlichkeit zur Verfügung zu stellen. Einen Einblick in die finanziellen Offshore-Aktivitäten einiger illustren Persönlichkeiten erhält man bereits jetzt, im Mini-Datensatz der sogenannten Power Players.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.