10 Jahre Wikipedia: Wie das Wissen System bekommt
Wikipedia ist nicht nur ein Nachschlagewerk, sondern auch eine Datenbank der Informationen. Mit semantischen Techniken versuchen Forscher den Wissensschatz zu heben.
Wie viele Flüsse gibt es in Europa? Wie viele deutsche Städte werden von Bürgermeisterinnen regiert? Es gibt Fragen, die selbst die Online-Enzyklopädie Wikipedia nicht beantworten kann. In den letzten zehn Jahren hat ein Heer von Freiwilligen Informationen zu fast allem gesammelt – von Politiker-Biografien über technische Standards bis hin zu detaillierten Beschreibungen der Figuren in der Fernsehserie "Die Simpsons".
Seit 2007 versuchen Mitarbeiter der Universität Leipzig, der Freien Universität Berlin und des US-Unternehmens OpenLink Software Ordnung in das Wirrwarr zu bringen. Mit dem Projekt DBpedia extrahieren sie das Faktenwissen aus dem Freiwilligen-Projekt und speisen es in eine gewaltige Datenbank.
Mehr als eine Milliarde Informationen haben sie in den letzten drei Jahren zusammengetragen und aufbereitet: Wer wurde wann geboren? In welcher Stadt? Wie viele Einwohner wohnen in dieser Stadt? Und welcher Fluss fließt durch diese Stadt? Fakten, die in unzähligen verschiedenen Wikipedia-Artikeln zerstreut sind, werden bei DBPedia neu verbunden.
"Es ist sehr nützlich, wenn man auf die Fakten direkt zugreifen kann und sie nicht erst aus dem Text heraussuchen muss", erklärt Dr. Sören Auer von der Universität Leipzig. Mit der DBPedia wollten die Forscher zeigen, wie viele Informationen in der Wikipedia stecken und wie man sie besser verknüpfen kann.
Computer lesen genau
Während sich die unzähligen freiwilligen Autoren der Wikipedia in den umstrittenen Artikeln um jede Formulierung feilschen und regelrechte Editierkriege führen, interessieren sich die Forscher für das reine Faktenwissen. Eine Quelle sind die Info-Boxen, die in den vergangenen Jahren in immer mehr Artikeln auftauchen.
Hier verzeichnen die Autoren Einwohnerzahlen, Geburtsdaten, Erscheinungsdaten - jeder Fachbereich hat seine eigenen Infoboxen. Die Qualität der Daten sei in der Regel sehr gut. "Manchmal gibt es Probleme, wenn zum Beispiel in einer Infobox eine Einheit fehlt", erklärt Auer. Das Problem: anders als menschliche Leser kann die Datenbank solche formalen Inkonsistenzen nicht selbständig korrigieren.
DBpedia soll aber nicht nur eine bessere Suchfunktion für Wikipedia liefern. Richtig spannend werden die Datensätze, wenn sie mit anderen Datenquellen kombiniert werden. So nutzt die BBC die DBPedia, um ihr Fernsehprogramm mit Informationen anzureichern. Auch der Nachrichtenkonzern Thomson Reuters nutzt die freie Datenbank schon, um seine Meldungen aufzupeppen. "DBpedia soll zu einem Kristallisationepunkt werden", sagt Auer. Mit der Datenmacht der Wikipedia soll das "Semantic Web", das Netz der Datenbanken vorangetrieben werden.
Vom Nachschlagewerk zur Antwortmaschine
Das semantische Netz ist seit über einem Jahrzehnt eines der Lieblingsprojekte von Web-Pionieren wie Tim Berners-Lee, dem Begründer des World Wide Web: möglichst viele Informationen im Netz sollen maschinenlesbar aufbereitet werden, um den Menschen wieder mehr Kontrolle über die gewaltigen Datenmengen im Netz zu geben.
Auch Wikipedianer sind von der Idee fasziniert. "Wikipedia ist heute noch an viel zu vielen Stellen an Kompromisse der Print-Zeit gebunden", sagt Mathias Schindler, Projektmanager beim Verein Wikimedia Deutschland. Zum Beispiel wird das Wissen bei Wikipedia immer noch in einzelne Artikel aufgeteilt. Mit Hilfe semantischer Techniken könnte die Online-Enzyklopädie in eine Art Frage- Antwort-Maschine verwandelt werden, die dem Leser zielgenau die Informationen liefert, die er braucht.
Mit dem Projekt Semantic MediaWiki soll die Wikipedia selbst mehr in eine Datenbank verwandelt werden - zudem könnte die Wikipedia automatisch andere Datenquellen wie die offiziellen Einwohnerzahlen einer Stadt automatisch integrieren. Ob und wann das Projekt jedoch in die Wikipedia integriert wird, steht noch nicht fest. Dass die Datenbankabfragen Wikipedia-Artikel komplett ersetzen, ist nicht zu befürchten: das Vokabular der Datenbanken ist noch zu grob, die Wirklichkeit zu vielfältig und uneindeutig, um sie in ein rigides Datenmuster zu pressen.
taz lesen kann jede:r
Als Genossenschaft gehören wir unseren Leser:innen. Und unser Journalismus ist nicht nur 100 % konzernfrei, sondern auch kostenfrei zugänglich. Texte, die es nicht allen recht machen und Stimmen, die man woanders nicht hört – immer aus Überzeugung und hier auf taz.de ohne Paywall. Unsere Leser:innen müssen nichts bezahlen, wissen aber, dass guter, kritischer Journalismus nicht aus dem Nichts entsteht. Dafür sind wir sehr dankbar. Damit wir auch morgen noch unseren Journalismus machen können, brauchen wir mehr Unterstützung. Unser nächstes Ziel: 40.000 – und mit Ihrer Beteiligung können wir es schaffen. Setzen Sie ein Zeichen für die taz und für die Zukunft unseres Journalismus. Mit nur 5,- Euro sind Sie dabei! Jetzt unterstützen
Starten Sie jetzt eine spannende Diskussion!