Suchen

Wikidata soll Wikipedia und Blogs mit Daten versorgen Wikimedia Deutschland plant Datenbank

| Autor / Redakteur: Dirk Srocke / Florian Karlstetter

Wikimedia Deutschland plant eine gemeinsame Datenquelle für alle Wikipedia-Sprachversionen und externe Blogs: Wikidata soll eine Art semantisches Netz werden.

Firma zum Thema

Bislang existiert selbst die Wikidata-Benutzerschnittstelle nur als Entwurf.
Bislang existiert selbst die Wikidata-Benutzerschnittstelle nur als Entwurf.

Eine "offene Datenbank für das Wissen der Welt" will der Wikimedia Deutschland e.V. mit dem Projekt Wikidata schaffen. Läuft alles nach Plan, wird Wikidata im März 2013 an die Wikimedia Foundation übergeben.

Dann sollen sich die verschiedenen Sprachversionen des Online-Lexikons Wikipedia aus dem Wikidata-Datenbestand bedienen. Das werde die Pflege des Nachschlagewerks erleichtern und für konsistente Daten sorgen, so die Hoffnung. Zudem können sich dann auch externe Blogs aus der strukturierten Datenquelle bedienen.

Die Entwickler skizzieren Wikidata derzeit als eine Art semantisches Netz. Auf diesem werden dann beispielsweise Abfragen nach den Hauptstädten aller Ländern mit mehr als zehn Millionen Einwohnern möglich sein.

Für Big Data werde sich die für Wikidata geplante Software zwar adaptieren lassen. Eine umfangreiche Online-Abfrage über Daten eines Sensornetzwerkes scheint derzeit jedoch illusorisch – nicht zuletzt wegen der dafür erforderlichen Rechenleistung. Für derlei Anwendungen müssen sich Nutzer Daten dann wahrscheinlich auf eigene Maschinen herunterladen und selbst auswerten.

Derzeit loten die acht Entwickler um Denny Vrandečić noch aus, welche Technik als Fundament für Wikidata genutzt werden soll. In der engeren Auswahl befinden sich verschiedene Open-Source-Lösungen sowie NoSQL-Datenbanken, heißt es. Zudem dürften die Programmierer auf Erfahrungen mit dem bereits bestehenden Semantic MediaWiki (SMW) zurückgreifen.

Das Projekt Wikidata wird in drei Phasen entwickelt: Bis August sollen Links der verschiedenen Wikipedia-Sprachversionen an einer zentralen Stelle gesammelt werden. In der darauf folgenden, zweiten Phase können Nutzer Daten verwenden und neue hinzufügen. Die Veröffentlichung der Auswertungsergebnisse soll im Dezember erfolgen. In der dritten Phase wird eine automatisierte Erstellung von Listen und Grafiken umgesetzt.

Das Projekt wird mit 1,3 Millionen Euro Spendenmitteln finanziert. Die Hälfte der Summe stammt vom Allen Institute for Artificial Intelligence [ai]², das vom Microsoft-Mitgründer Paul G. Allen ins Leben gerufen wurde. Je ein Viertel der Entwicklungskosten kommen von der Gordon and Betty Moore Foundation sowie Google.

(ID:32789100)