piwik no script img

Neue Datenplattform für WikipediaFakten sollen zentralisiert werden

Die Online-Enzyklopädie Wikipedia startet ein neues Großprojekt: Basis-Fakten wie Geburtstage oder Einwohnerzahlen sollen in einer zentralen Datenbank gebündelt werden.

Egal, ob Englisch oder Portugiesisch: Basis-Fakten der Wikipedia sollen künftig in allen Sprach-Varianten aus der gleichen zentralen Datenbank kommen. Bild: dpa

Mit einem neuen Projekt will der Wikipedia-Betreiber Wikimedia seinen ehrenamtlichen Autoren die Arbeit erleichtern: Unter dem Namen WikiData wird eine neue Daten-Ressource entstehen, die die Arbeit in der Wikipedia einfacher machen soll.

Statt Basis-Fakten in jeder einzelnen Sprachversion eines Artikels manuell einzutragen, werden sie künftig in einer zentralen Datanbank gepflegt - und automatisch in mehr als 250 Sprechen übersetzt.

Die Realisierung von WikiData ist ein Großprojekt für die Wikimedia Foundation. Denn das Grundprinzip des Artikelschreibens hat sich in den vergangenen zehn Jahren wenig geändert. "WikiData geistert bereits seit Jahren als Idee durch die Wikipedia", erklärt Wikimedia Deutschland-Geschäftsführer Pavel Richter gegenüber taz.de.

Doch nun will er Nägel mit Köpfen machen: Der deutsche Verein sucht elf neue Angestellte, die in den kommenden 12 bis 18 Monaten das Projekt realisieren sollen, darunter sechs Programmierer. Alleine im kommenden Jahr sollen 870.000 Euro in das Projekt gesteckt werden.

Wikimedia Deutschland arbeitet eng mit der US-Stiftung zusammen, ist aber ein eigenständiger Verein. "Die Prioritäten der Wikimedia Foundation sind die Entwicklung eines neuen Artikel-Editors, die Verfügbarmachung von Inhalten auf mobilen Endgeräten sowie der Aufbau eines neuen Datenzentrums", erklärt Richter. "Deshalb haben wir uns entschlossen, dieses Projekt federführend voranzutreiben."

Softwareentwicklung für Wikipedia ist komplex. Die Software der Plattform leistet zwar für den aktuellen Zustand der Enzyklopädie gute Dienste, tief greifende Veränderungen verlangen aber einen enormen Aufwand. So hatte die Wikimedia Foundation schon vor über fünf Jahren Arbeiten für einen neuen Artikel-Editor begonnen, der die Arbeit für Autoren einfacher machen soll - das erste Ergebnis soll erst Ende diesen Jahres vorliegen.

Macht die Community mit?

Doch es gibt nicht nur technische Probleme - auch die Community muss mitziehen. So sind bisher maschinelle Übersetzungen unter Wikipedianern verpönt. Statt einfach die mit 3,5 Millionen englischen Artikeln größte Wikipedia-Ausgabe in möglichst viele Sprachen zu übersetzen, setzt das Wiki-Prinzip darauf, dass sich Muttersprachler das Wissen selbst erarbeiten, das sie in die Enzyklopädie schreiben.

Aus der WikiData-Datenbank können aber keine kompletten Artikel geschöpft werden. Denn die Ontologie, sozusagen das Vokabular der Datenbank, kann nicht so vielfältig wie die menschliche Sprache sein und ist auf eindeutige Sachverhalte begrenzt. Die Einwohnerzahl von Berlin beispielsweise kann einfach aus einer Datenbank gelesen werden.

Welche Bedeutung die preußischen Könige für die Geschichte Berlins hatten, ist jedoch in Datenbanken kaum zu erschließen. Zunächst sollen die Informationen aus WikiData deshalb zunächst separat in Infokästen eingeblendet werden. Wie weit sich die automatischen Informationen in die Artikel integrieren lassen, muss im kommenden Jahr geklärt werden.

Auch wie die zentrale Ressource verwaltet wird, ist zudem eine kritische Frage. So gibt es mit Wikimedia Commons bereits eine zentrale Ressource für Bilder, Tondateien und Videos, die in allen Wikipedia-Ausgaben verwendet werden können. Doch während das Projekt in den ersten Jahren ohne Probleme lief, gibt es in letzter Zeit heftigen Streit um die Ausrichtung des Wissens-Sammelbeckens.

Weil sich in Wikimedia Commons allzu viele sexuelle oder auf andere Weise kontroverse Inhalte angesammelt hatten, plant die Wikimedia Foundation eine Art Jugendschutz-Filter. Nachdem gerade europäische Wikipedianer jedoch sich strikt gegen die Pläne aussprachen, wurden die Filterpläne erst einmal auf Eis gelegt.

taz lesen kann jede:r

Als Genossenschaft gehören wir unseren Leser:innen. Und unser Journalismus ist nicht nur 100 % konzernfrei, sondern auch kostenfrei zugänglich. Texte, die es nicht allen recht machen und Stimmen, die man woanders nicht hört – immer aus Überzeugung und hier auf taz.de ohne Paywall. Unsere Leser:innen müssen nichts bezahlen, wissen aber, dass guter, kritischer Journalismus nicht aus dem Nichts entsteht. Dafür sind wir sehr dankbar. Damit wir auch morgen noch unseren Journalismus machen können, brauchen wir mehr Unterstützung. Unser nächstes Ziel: 40.000 – und mit Ihrer Beteiligung können wir es schaffen. Setzen Sie ein Zeichen für die taz und für die Zukunft unseres Journalismus. Mit nur 5,- Euro sind Sie dabei! Jetzt unterstützen

Mehr zum Thema

1 Kommentar

 / 
  • ZW
    zentralisiert werden

    google: "Wikidata als Nebenprojekt" ist z.b. vom März letzten! Jahres.

     

    Das theoretische Projekt ist älter und andere gleichlautende Projekte gibt es auch noch. Es bleibt wenigstens in Deutschland.

     

    Es gibt nicht eine einzige Arbeitslosenzahl. Sondern jeden Monat neue. Und von der Gewerkschaft, von der Opposition und der Regierung jeweils unterschiedliche Zahlen.

    Selbst wenn korrekt gerechnet wird, kann man das Meter-Normal in Paris auf die Dickste und auf die Dünnste Weise messen und hat sicher ein paar Atome mehr oder weniger.

    Das Konzept heisst Multi-Wahrheits-Wikis. Von mir aus auch Schrödingers-Katzen-Wiki. So lange keiner die Evolution oder Creationismus bewiesen hat, und z.b. 90% aller relevanten Wissenschaftler dafür oder dagegen sind (wie damals als die Erde noch eine Scheibe war), stellt man beides nebeneinander und die Haupt-Pro/Contra-Argumente. Also z.b. "wieso hat (Euer) Gott tote Dinosaurier verbuddelt ?".

    Gleiches für Reagans Wirtschafts-Politik. Da haben die Volkswirte bis heute keine halbwegs einheitliche Meinung ob sie gut oder schlecht war.

    WikiData nach dem alten Konzept hätte also Multiwahrheit bzw. viele Quellen gehabt.

    Rauchertote nach Angaben der deutschen Lungenkrebs-Liga, der Gesundheits-Minister, der Raucher-Lobby, der EU-Kommission und der Unesco-HCR u.ä. stehen dann als Quellenangaben nebeneinander.

     

    Wenn also ein Politiker dann in einer Diskussion eine Zahl nennt, könnte man beim in Forenpostings konzipierten WikiData nachsehen, wessen Statistik er benutzt. Dabei gehts nicht primär um wahr oder falsch sondern oft nur um "eher niedrig" oder "eher hoch" angesetzt.

    Laut Ministern die 10.000 Euro pro Monat kriegen, sind Hartz4-Kinder gut versorgt. Es gibt also laut Regierung nur ganz ganz wenige Kinder unterm Existenzminimum. Laut Wirtschaftsverbänden braucht jedes Kind eine Spielekonsole jährlich, monatlich 2 Spiele und natürlich ein neues Smartphone pro Jahr und jede Woche einen neuen Klingelton im 4,99-Euro/Woche-Klingelton-Abo mit einer Neoliberalen Laufzeit von 3 Jahren. Also gibt es laut denen 98% Kinderarmut weil so viele sich das nicht leisten können.

    Auch ist es dumm, Autoren zu zwingen. Es sollte einfach normal werden, die Daten von dort zu holen und dann konvertieren die Artikel von selber und wo sie es nicht tun, ist wikidata nicht geeignet genug oder man muss überzeugen.

     

    Das andere Thema was aber eigentlich ganz anders ist, ist der Content und automatische Übersetzung.

    Für Sport-Nachrichten wird das angeblich gemacht. Wer nachrichten.de-App lädt und die Sport-Berichte antippt, sieht viele gleichlautende Anreisse von zig deutschen Zeitungen. Das sind allerdings nur Agenturtexte die einheitlich verwendet werden.

    Es ist also die Frage ob man RDF o.ä. Systeme nutzt, um Sachverhalten logisch darzustellen und auf Wunsch in verschiedenen Kompressionsstufen auszugeben: Beispiel:

    1) *1.1.2054 +12.3.2011 Hans Wurst

    2) Hans Wurst (1.1.2054..12.3.2011)

    3) Hans Wurst wurde in Grauau am Inn am 1.1. 2054 geboren und starb leider bedauerlicherweise viel zu früh ... ... ... ... am 12. März des 2011.

    Alles aus demselben Datensatz generiert.

    Dabei gehts aber um den Content und nur teilweise um den Zweck von Wikidata, z.b. alle Angaben zur Hunger-Bevölkerung von Birma und Nord-Korea oder Anzahl der Schwulen von Iran laut Hochrechnungen und offizieller Zahlen liefern zu können.

     

    HTML ist zum Lesen für Menschen. Xml ist für Computer zum weiter-verarbeiten. Diesen Weg geht Wiki evtl so langsam wenn auch wohl leider wenig absichtlich.

     

    Na ja. Ich hätte es selbstorganisativ gemacht für Rechtsschutz vor Abmahnungen und Verfassungsklagen. Aber 12 Leute von Spendengeldern bezahlen ist sicher viel besser.

     

    Es wäre z.b. schön, die Festnetz-Nummern von Unternehmen dort einzutragen. Oder Einwahldaten wie die Namen der Pop/SMTP/...-Server der üblichen Freemail-Anbieter. Also das was google-Base leider wohl nicht geschafft hat :-(

     

    Wolfram Research hat ja so eine Suchmaschine wo man angeblich Suchanfragen wie "die zehn bevölkerungsreichsten Städte" o.ä. suchen kann. Das basiert zwar auch auf guten Algorithmen. Aber auch darauf, viele Datenbanken anzuzapfen. Wobei Wolfram dafür auch vorhandene Anbieter bezahlen kann, während man für die Festnetz-Telefonnummern um Gebühren-Schneiderei zu mindern von Unternehmen womöglich Post von Juristen kriegt.

    WikiData ist also "nur" ein Baustein und kann für viel mehr genutzt werden als nur Zahlen-Lager oder Politiker-Ämter/Pöstchen-Auflistung für Wikipedia-Texte.

     

    Oeffnungszeiten.de oder Telefonbücher oder auch Openstreetmap sind ähnliche Projekte. Viele Daten wird man also wohl auch nicht hinterlegen sondern nur Cachen (Firmensitz-Postadresse von Apple o.ä.) und woanders her holen. Die aktuellen Arbeitslosen-Zahlen beispielsweise von der Hartz4-Behörde.