10 Petabyte und mehr

Beim CERN ergänzt MongoDB relationale Datenbanken

| Autor / Redakteur: Alexander Fuchs / Ulrike Ostler

Blick auf den CMS Detector in der Oberflächenhalle in Cessy
Blick auf den CMS Detector in der Oberflächenhalle in Cessy (Bild: CERN)

Der „Compact-Muon-Solenoid“ (CMS) ist einer der beiden Universal-Teilchendetektoren am Large Hadron Collider (LHC). Für den Betrieb des CMS sorgen mehr als hundert in einem dreistufigen Modell angeordnete Rechenzentren – schließlich verursacht der Detektor jedes Jahr ein Datenaufkommen von rund 10 Petabyte (PB), bestehend aus echten, simulierten und Metadaten.

Der Compact-Muon-Solenoid wurde konzipiert, um die Grenzen der Physik zu erforschen und die Frühphase unseres Universums zu untersuchen. Mehr als 3.000 Physiker an 183 Instituten in 38 Ländern beschäftigen sich damit, Experimente mithilfe des LHC zu entwickeln und durchzuführen.

Derart groß angelegte Experimente verlangen ein breit aufgestelltes und komplexes, verteiltes Rechner- und Datenmodell. Die im Betrieb des CMS generierten Massen an Informationen werden sowohl in relationalen als auch nicht-relationalen Datenquellen gespeichert, darunter dokumentenorientierte Datenbanken, Blogs, Wikis, Dateisysteme und maßgeschneiderte Anwendungen.

Das Auffinden von Informationen spielt angesichts dieser heterogenen, stark verteilten IT-Landschaft bei der erfolgreichen Datenanalyse eine zentrale Rolle. Die Daten und assoziierten Metadaten entstehen auf vielfältige Art und Weise und liegen in unzähligen digitalen Formaten ab.

Wie die richtige Information finden?

Gleichwohl müssen die Anwender jederzeit in der Lage sein, verschiedene Services abzurufen und Informationen aus den verschiedenen Datenquellen zu kombinieren. Aufgrund der enormen und komplexen Datenmenge können die Nutzer jedoch nicht wissen, wo die richtigen Informationen zu finden sind und verfügen zudem nicht über das Fachwissen, um die benötigten Daten aus den jeweiligen Informationssystemen zu extrahieren.

Um diesen Missstand zu beheben, schufen die Verantwortlichen für Data Management und Workflow Management des CMS ein Daten-Aggregationssystem (DAS) auf Basis der NoSQL-Datenbank „MongoDB“. Es soll das Suchen und Aggregieren von Daten in der komplexen und weit verteilten Landschaft verschiedenster miteinander gekoppelter Systeme erleichtern.

Ergänzendes zum Thema
 
Über CERN

Die Daten und Metadaten des CMS stammen aus vielen verschiedenen Quellen und liegen in vielfältigen digitalen Formaten vor. Das System wird mithilfe relationaler als auch nicht-relationaler Datenquellen organisiert und verwaltet und die Software ständig weiterentwickelt.

Inhalt des Artikels:

Kommentare werden geladen....

Kommentar zu diesem Artikel abgeben

Der Kommentar wird durch einen Redakteur geprüft und in Kürze freigeschaltet.

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 37207450 / Datenbanken / Big Data)