piwik no script img

Semantische Suche im Netz"Dumm wie Google" war gestern

"Casablanca" bringt bei der Google-Suche Millionen Ergebnisse. Ist die Stadt gemeint oder der Film? Suchmaschinen sind dumm und schnell. Schema.org will das ändern.

Was Google über Casablanca weiß, ist viel und nichts zugleich. Bild: screenshot google

6.500 Einzelsprachen so zu verstehen, dass noch die dümmsten Maschinen sie in all ihren Sätzen, Wörtern, Bedeutungen nicht nur erfassen, sondern auch verarbeiten können - das ist ein komplexer Vorgang, an dem große Teile des Internets inklusive fast aller Suchmaschinen bisher gescheitert sind.

Wem schon der gerade gelesene Satz zu komplex erscheint, dem sei es einfacher ausgedrückt: Erstmal geht es um "Teekesselchen". Wörter haben oft mehrere Bedeutungen. Einige kennen den "Kanal" als künstliche Wasserstraße, andere kennen ihn vom Zappen am Fernsehgerät. Die Waage kann zum Erfassen des Gewichts nützlich sein oder zur Orientierung auf der Horoskopseite einer Zeitung. Casablanca ist eine Stadt und ein Film zugleich.

Wo Menschen mit der Zeit zu unterscheiden lernen, lernen dies Suchmaschinen von selbst nicht. Nach einer entsprechenden Eingabe listen sie dumpf hintereinander weg alles auf, was sie zum Thema finden können. "Dumm wie Google", könnte man sagen, "doof wie Yahoo" oder "blöd wie Bing".

Damit das nicht so bleibt, haben sich nun Google, Yahoo und die zu Microsoft gehörende Suchmaschine Bing zusammengetan, um der Suche im Netz mehr Verständnis zu verpassen. Man spricht dabei auch von einer "semantischen Suche". Das Ergebnis heißt Schema.org. Wer die Webseite einmal besucht, sich ein wenig in die Unterstrukturen hereinklickt und weder Vorkenntnisse im Programmieren noch im Bereich des semantischen Webs hat, wird sich überfordert und gelangweilt wieder abwenden.

Neue Standards

Doch was hier entstehen könnte, hat das Zeug dazu, Teile des Netzes und speziell die Funktionen von Suchmaschinen mittel- oder langfristig zu verändern. "Große Player sind dabei, sich auf Standards zu einigen", sagt Daniel Bahls, Spezialist für Semantische Technologien beim ZBW Leibniz-Informationszentrum Wirtschaft in Hamburg. "Die semantischen Technologien stehen schon seit Jahren im Raum und wurden bisher nur im kleineren Kontext verwendet."

Denn Schema.org lädt Entwickler, Forscher, die Semantic-Web-Community und am Ende auch alle Betreiber von Websites dazu ein, an der Umgestaltung der Suche im Netz mitzuwirken. "Damit wollen Google, Bing und Yahoo! dem Info-Chaos im WWW den Garaus machen", schreibt André Vatter im Blog ZBW Mediatalk. Inhalte von Websites sollen mit einem speziellen, aber einheitlichen Vokabular für die Crawler der Suchmaschinen gekennzeichnet und aufbereitet werden.

Indem Schlagworte, so genannte Tags, in den Code von Websites eingebettet werden, sind Suchmachinen nicht mehr so sehr auf die Analyse der natürlichen Sprache angewiesen, um Texte inhaltlich zu erfassen. Im Blog wird dies als "Semantic Web light" bezeichnet - ein semantisches Web auf niedrigster Ebene. Aber selbst das werde "schon viel bewirken", meint Bahls. "Das semantische Web wird sich über die nächsten Jahrzehnte evolutionär weiterentwickeln." Einen "Abschluss" werde es nie geben, "da eine einheitliche Formalisierung von Begrifflichkeiten auf feiner Stufe kaum möglich ist."

"Gemeinsames Format für strukturierte Daten"

Aber warum sollten Google, Yahoo und Bing plötzlich zusammenarbeiten, wo doch bisher die Konkurrenz das Verhältnis prägte? Stefan Keuchel, Pressesprecher von Google Deutschland, betont, alle beteiligten Unternehmen wollten "ein deutliches Zeichen setzen, um die Qualität der Suche zu verbessern". Man entwickele "ein gemeinsames Format für strukturierte Daten, mit dem Dinge ermöglicht werden, die heute noch nicht möglich sind - Stichwort: semantische Suche".

Die Ergebnisse aus Schema.org würden "zeitnah" in die Suchmaschine integriert, "denn einen Zeitplan" gebe es nicht. "Erst mit der Einigung auf eine gemeinsame Sprache können Suchmaschinen einen Mehrwert durch semantische Technologien generieren", antwortet Daniel Bahls auf die Frage nach Gemeinsamkeit und Konkurrenz der Suchmaschinen.

Er weist außerdem darauf hin, dass es bereits die semantische Suchmaschine Sig.ma gibt. Geschwindigkeit und Menge der Ergebnisse nach einer Suchanfrage spielen hier keine Rolle. Sig.ma sammelt seine Informationen allein im Bereich des semantischen Webs und listet nach einer Anfrage alles Bekannte strukturiert auf.

taz lesen kann jede:r

Als Genossenschaft gehören wir unseren Leser:innen. Und unser Journalismus ist nicht nur 100 % konzernfrei, sondern auch kostenfrei zugänglich. Texte, die es nicht allen recht machen und Stimmen, die man woanders nicht hört – immer aus Überzeugung und hier auf taz.de ohne Paywall. Unsere Leser:innen müssen nichts bezahlen, wissen aber, dass guter, kritischer Journalismus nicht aus dem Nichts entsteht. Dafür sind wir sehr dankbar. Damit wir auch morgen noch unseren Journalismus machen können, brauchen wir mehr Unterstützung. Unser nächstes Ziel: 40.000 – und mit Ihrer Beteiligung können wir es schaffen. Setzen Sie ein Zeichen für die taz und für die Zukunft unseres Journalismus. Mit nur 5,- Euro sind Sie dabei! Jetzt unterstützen

Mehr zum Thema

6 Kommentare

 / 
  • C
    cointel

    Ob es tatsächlich stimmt, dass „Menschen mit der Zeit zu unterscheiden lernen“, zeigt sich schon an der Zeile „Indem Schlagworte, so genannte Tags“: Man hätte ja mal kurz ein Wörterbuch oder die -ha!- Begiffsklärungseite von Wikipedia bemühen können, um den deutlich treffenderen Begriff „Auszeichnung“ zu finden.

     

    An letzteres sei auch Magnus verwiesen: Es muss nicht jeder dahingefaselte Blogtext semantisiert sein, aber Wikipedia bietet genau dafür optimale Bedingungen. Zudem wäre es mit Referenz auf WP (oder eine ähnlich breit definierte strukturierte Datenbasis) relativ einfach, eigene Texte Automaten-unterstützt durch Auswahl aus deren Fundus zu taggen. Nicht immer gleich „Bullshit“ schreien, wenn man nicht über den Rand des eigenen Nutzens oder Willens hinauszuschauen bereit ist.

     

    Im Übrigen wäre ein Hinweis auf Wolfram Alpha durchaus angebracht: „Assuming "casablanca" is a city | Use as a movie or an administrative division or referring to a television series or an airport instead“

  • M
    Magnus

    Das semantische Web ist eine Totgeburt, die seit 15 Jahren künstlich beatmet wird. Welcher Blogger wird denn anfangen, wie in der Bibliothek Schlagworte für seine Artikel zu vergeben? Mühevolle Handarbeit, die keinen Spaß macht - das werden nur die wenigsten mitmachen. Es ist auch vollkommen widersinnig in Zeiten von Blog- und Web-Baukästen.

     

    Was soll denn auch verschlagwortet werden? Manchmal verstecken sich in Nebensätzen Informationen, die ich selbst nicht relevant finde, ein anderer aber schon. Ohne Verschlagwortung findet diese Information dann aber niemand. Dass bei Laien übler Unfug herauskommen würde, dürfte klar sein. Und damit funktioniert das Konzept einfach nicht.

     

    Suchmaschinen müssen selbst "intelligent" genug werden, Inhalte zu "verstehen" und einordnen zu können. Ich habe schlicht und einfach keine Lust, nach dem Schreiben eines Artikels noch Schlagworte zu vergeben. Und eine Maschine, die selbst verschlagwortet, bildet eben auch Schlagworte, an die ich nie gedacht hätte.

     

    Als Meta-Tag gibt es übrigens solche Schlagworte schon seit Anbeginn des Webs. Wenn die überhaupt genutzt werden, dann mit nur ganz wenigen Schlagworten, und meist auf der kompletten Website dieselben - also unbrauchbar. Warum sollte das beim semantischen Web besser klappen?

     

    Tim Berners-Lee hatte seinen großen Wurf. Beim semantischen Web verrennt er sich aber leider.

  • CA
    Christian Alexander Tietgen

    Wenn dann plötzlich bei Sibel Kekilli alle Filme von Dilara angezeigt werden, ist das nicht so glücklich.

  • D
    dsds

    Es soll ja möglich sein, ein zweites Wort wie z.b. "Film" oder "Stadt" mit in die Suchmaske einzugeben.

     

     

    "Bei Suchmaschinen im Internet ist meine Standard-Formulierung: Wenn mehr als 23 Antworten kommen, dann war die Frage falsch gestellt." Wau Holland.

  • M
    monochromata

    "Wem schon der gerade gelesene Satz zu komplex erscheint, dem sei es einfacher ausgedrückt: Erstmal geht es um 'Teekesselchen'."

     

    Der Autor meinte wohl: "Wem schon der gerade gelesene Satz zu komplex erscheint, dem fällt auf, dass er gar nichts mit 'Teekesselchen' zu tun hat. Alternativ könnte einem auffallen, dass der Autor den Satz falsch konstruiert hat. (Der Satz sagt aus, dass das Verständnis von 6.500 Einzelsprachen ein komplexer Vorgang sei, dessen Beherrschung es Maschinen (generell) ermöglicht, Sätze, Wörter und Bedeutungen zu erfassen und zu verarbeiten. Weiterhin sagt der Satz aus, dass dieser Vorgang von "großten Teilen des Internets" inkl. dem meisten Suchmaschinen nicht beherrscht würde. Das Schmaschinen es Maschinen ermöglichen sollen, Sprachen zu verstehen macht allerdings gar keinen Sinn.) Zudem ist die Einschräkung im ersten Absatz ("fast alle Suchmaschinen") nicht gerechtfertigt, weil sie besagt, dass es eine Suchmaschine gibt, die 6.500 Einzelsprachen versteht, was sicher nicht der Fall ist.

     

    Der Rest des Artikels ist ein an sich löblicher Versuch, das Thema Laien bekannt zu machen. Man hätte noch eine kritische Stimme zu Wort kommen lassen können, z.B. http://manu.sporny.org/2011/false-choice/ .

  • SB
    Stefan Behnel

    Es sollte nicht unerwähnt bleiben, dass der Grund, aus dem die Stadt Casablanca und der Film Casablanca direkt als erste Treffer gelistet werden, der ist, dass die Suchmaschinen sehr wohl wissen, dass zwischen beiden ein großer semantischer Unterschied besteht, und der Nutzer, der eine mehrdeutige Anfrage gestellt hat, sich mit hoher Wahrscheinlichkeit für eine der beiden Bedeutungen interessiert. It's not a bug, it's a feature.