Daten als neues Öl: Herausforderungen und Lösungen in der Datenerfassung

Kommentar von Ivana Bartoletti, Wipro Synthetische Daten – Datenschutz-Universallösung oder Governance-Herausforderung?

03.04.2025 Von Ivana Bartoletti* 5 min Lesedauer

Anbieter zum Thema

Insider Research Cover-1400x1400px.jpg ()

flexera-no-tagline-rgb-full-color (Flexera Software GmbH)

Daten werden oft als das neue Öl bezeichnet. Auch wenn der Vergleich hinkt (Daten sind wiederverwendbar, Öl nicht), so vermittelt er doch die Bedeutung einer wertvollen Ressource, die Innovationen anregt, Entscheidungen beeinflusst und die Weltwirtschaft antreibt.

* Die Autorin Ivana Bartoletti ist Global Chief Privacy & AI Governance Officer bei Wipro (Bild: Wipro) — * Die Autorin Ivana Bartoletti ist Global Chief Privacy & AI Governance Officer bei Wipro
(Bild: Wipro)

Das derzeitige Modell der Datenerfassung und -nutzung wirft jedoch erhebliche Bedenken hinsichtlich Datenschutz, Umweltbelastung und ethischer Aspekte auf. Während wir uns mit diesen Herausforderungen auseinandersetzen, werden synthetische Daten oft als potenzielle Lösung gesehen – allerdings eine, die sowohl Chancen als auch Risiken birgt.

Die schiere Menge der täglich generierten und gesammelten Daten ist für die menschliche Vorstellungskraft kaum greifbar: Schätzungen zufolge werden weltweit pro Tag etwa 2,5 Trillionen Bytes an Daten erzeugt. Darunter fallen alle Daten von Social-Media-Beiträgen und Online-Käufen bis hin zu Sensordaten aus dem IoT (Internet of Things) sowie Satellitenbilder. In einer 2019 eingeleiteten Prognose wird bis 2025 geschätzt, dass weltweit täglich 463 Exabyte an Daten generiert werden – das entspricht einer Menge von 212.765.957 DVDs . Diese massive Datengenerierung und -sammlung hat allerdings ihren Preis, sowohl im Hinblick auf die Privatsphäre des Einzelnen als auch für die Umwelt.

Auswirkungen auf den Datenschutz

Die umfangreiche Erfassung personenbezogener Daten birgt von einem Privatsphäre-Standpunkt aus erhebliche Risiken. Datenpannen werden immer häufiger und legen sensible Informationen von Millionen von Nutzern offen. Darüber hinaus ermöglicht die Aggregation von Daten aus verschiedenen Quellen eine detaillierte Profilerstellung von Einzelpersonen, was potenziell zu diskriminierenden Praktiken in Bereichen wie Beschäftigung, Versicherung und Kreditwürdigkeitsprüfung führen kann.

Ein Mangel an Transparenz bei der Datenerfassung und -nutzung verschärft diese Bedenken weiter. Viele Nutzer sind sich nicht darüber bewusst, in welchem Umfang ihre Daten gesammelt, weitergegeben und monetarisiert werden. Diese Intransparenz untergräbt das Vertrauen in digitale Dienste und wirft Fragen nach dem Machtverhältnis zwischen Technologieunternehmen und dem individuellen Nutzer auf.

Auswirkungen aus Umweltperspektive

Die Datenwirtschaft hat zudem einen erheblichen ökologischen Fußabdruck. Rechenzentren, die die riesigen Mengen an gesammelten Daten speichern und verarbeiten, weisen einen enormen Energieverbrauch auf. Schätzungen zufolge entfällt etwa ein Prozent des weltweiten Stromverbrauchs auf Rechenzentren. Da die Datengenerierung weiterhin exponentiell wächst, steigt auch der Energiebedarf für deren Speicherung und Verarbeitung. Das wiederum zieht CO₂-Emissionen mit sich und trägt zum Klimawandel bei.

Sind synthetische Daten eine Alternative?

Unter synthetischen Daten versteht man künstlich generierte Informationen, die die statistischen Eigenschaften realer Daten imitieren, ohne tatsächliche personenbezogene Informationen zu enthalten. Dieser Ansatz bietet mehrere Vorteile wenn es darum geht, die mit dem aktuellen Modell zur Datenerhebung verbundenen Probleme zu beheben:

1. Verbesserter Datenschutz: Durch die Verwendung synthetischer Daten können Organisationen Anwendungen entwickeln und testen, Machine-Learning-Modelle trainieren und Forschung betreiben, ohne die Offenlegung realer personenbezogener Informationen befürchten zu müssen. Auch bei der Entwicklung digitaler Zwillinge kann der Ansatz einen wertvollen Beitrag leisten. So können Datenschutzrisiken im Zusammenhang mit Datenpannen und unbefugtem Zugriff erheblich reduziert werden. In diesem Sinne können synthetische Daten unter die breite Kategorie der Technologien zum Schutz der Privatsphäre (Privacy Enhancing Technologies, PETs) gezählt werden.

2. Geringerer Bedarf nach Datenerfassung: Synthetische Daten können reale Daten in vielen Anwendungen ergänzen oder sogar ersetzen, wodurch potenziell der Bedarf nach einer umfangreichen Erfassung von Informationen über Einzelpersonen reduziert wird. Dies könnte dazu beitragen, Datenschutzbedenken im Zusammenhang mit dem derzeitigen Daten-Extraktivismus-Modell zu mindern.

3. Umweltvorteile: Durch einen reduzierten Bedarf nach der Speicherung und Verarbeitung großer Mengen realer Nutzerinformationen können synthetische Daten dazu beitragen, den Energieverbrauch sowie CO2-Fußabdruck von Rechenzentren zu verringern. Diese Entwicklung steht im Einklang mit den Bemühungen, die digitale Wirtschaft nachhaltiger zu gestalten.

4. Verbesserte Datenverfügbarkeit: Synthetische Daten können mit dem Ziel generiert werden, seltene Szenarien oder unterrepräsentierte Gruppen darzustellen und so Probleme wie Verzerrungen und Unterrepräsentation in bestehenden Datensätzen zu beheben. Das kann zu inklusiveren und faireren KI-Systemen und datengesteuerten Entscheidungsprozessen führen, was beispielsweise wichtige Auswirkungen auf den Gesundheitssektor haben kann. Denn hier sind die historisch gewachsenen Datengrundlagen noch längst nicht verzerrungsfrei.

5. Einhaltung von Datenschutzbestimmungen: Die Verwendung synthetischer Daten kann Unternehmen dabei unterstützen, Datenschutzbestimmungen wie die DSGVO einzuhalten. Denn es erfolgt keine Verarbeitung realer personenbezogener Daten.

6. Kosteneffizienz: Die Generierung synthetischer Daten kann sich als kostengünstiger erweisen als das Sammeln und Verwalten großer Mengen echter Daten – insbesondere für Szenarien, die selten oder im realen Leben schwierig zu erfassen sind.

Fallstricke und Herausforderungen mit synthetischen Daten

Obwohl dieser Daten-Typ viele Vorteile bereithält, sind auch die damit verbundenen Herausforderungen und potenziellen Nachteile nicht zu vernachlässigen:

1. Rückidentifizierungs-Risiken: Obwohl in diesem Kontext keine realen personenbezogenen Informationen im Spiel sind, besteht dennoch das Risiko, dass Personen rückidentifiziert werden können. Das kann der Fall sein, wenn die synthetischen Daten Muster aus dem Originaldatensatz zu genau nachahmen. Sicherzustellen, dass bei der Nutzung synthetischer Daten Vertraulichkeit gewährleistet wird und diese dennoch nützlich bleiben, ist eine große Herausforderung, die ein sorgfältiges Abwägen und fortschrittliche Methoden erfordert.

2. Qualität: Es ist entscheidend, dass synthetische Daten die Komplexität und Nuancen realer Daten genau wiedergeben. Wenn die verwendeten Datensätze zentrale Muster oder Zusammenhänge in realen Daten nicht erfassen, kann dies zu ungenauen Modellen oder fehlerhaften Erkenntnissen in Analyse- oder Machine-Learning-Anwendungen führen.

3. Effizienz-Abwägungen: Während synthetische Daten den Bedarf nach echten Datensammlungen reduzieren können, erfordert die Generierung hochwertiger synthetischer Daten oft erhebliche Rechenleistungen. Dies kann wiederum Einschnitte bei den genannten Umweltvorteilen bedeuten, insbesondere wenn häufig große Mengen synthetischer Werte generiert werden müssen.

Eine Frage der Balance

Mit Blick auf die Herausforderungen einer datenbasierten Wirtschaft stellen synthetische Daten ein vielversprechendes Werkzeug dar. Sie bieten eine Möglichkeit, die Leistungsfähigkeit von Datenanalysen und maschinellem Lernen zu nutzen und gleichzeitig einige der drängendsten Bedenken im Zusammenhang mit dem Daten-Extraktivismus zu mindern.

Entscheidend ist, synthetische Daten aus einem ausgewogenen Blickwinkel heraus zu betrachten: Sie können zwar Datenschutzaspekte erheblich verbessern und Umweltbelastungen durch Datenspeicherung senken, sind aber kein Allheilmittel für alle datenbezogenen Probleme. Herausforderungen wie potenzielle Rück-Identifizierungen, die Komplexität der Generierung tatsächlich repräsentativer Daten und die benötigten Rechenkapazitäten sollten ebenfalls sorgfältig geprüft werden.

Zur effektiven Nutzung synthetischer Daten werden künftig die Entwicklung robuster Methoden zur Generierung, Validierung und Nutzung zentral sein. Dazu gehört die Weiterentwicklung von Verfahren zur Erstellung realistischerer und vielfältigerer synthetischer Datensätze, die Implementierung starker Sicherheitsvorkehrungen zur Vorbeugung von Rück-Identifizierungen sowie die Festlegung klarer ethischer Richtlinien und regulatorischer Rahmenbedingungen für ihre Anwendung.

(ID:50351924)

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Cloud Computing

Geschäftliche E-Mail

Bitte geben Sie eine gültige E-Mailadresse ein.

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Stand: 08.12.2025

Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.

Einwilligung in die Verwendung von Daten zu Werbezwecken

Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.

Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.

Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.

Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.

Recht auf Widerruf

Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.