Künstliche Intelligenz und Wikipedia: Wenn die KI sich Bücher ausdenkt
Unis, Verlage und Internetseiten kämpfen mit KI-generierten Falschinformationen. Wiki-Autor Mathias Schindler geht gegen diese vor – mithilfe von KI.
„Wikipedia ist ein möglicherweise guter Ort für den Beginn einer Recherche, aber kein Ort, an dem die Recherche enden sollte“, steht auf einer der ersten Slides des Vortrags zu KI-generierten Inhalten auf Wikipedia von Mathias Schindler am ersten Tag des Kongresses des 39. Chaos Computer Clubs. Seit mehr als 20 Jahren schreibt Schindler für Wikipedia.
Doch stimmt dieser Satz über die Internet-Enzyklopädie nach November 2022, nach der Einführung der sogenannten Large Language Models (LLMs) wie ChatGPT und Claude überhaupt noch? Ist die Wikipedia wirklich noch ein guter Ort für den Beginn einer Recherche?
Dass Sprachmodelle falsche Inhalte ausgeben, Fakten „halluzinieren“, ist vielen bekannt. Schindler fiel im Rahmen eines Literaturprojekts jedoch eine weitere buchstäbliche Fehlerquelle auf: die Quellenangabe der vermeintlichen Fakten, besser gesagt, die ISBN.
Die „Internationale Standardbuchnummer“ besteht aus 13 Ziffern und enthält wichtige Informationen über das Buch, etwa unter welchem Verlag es veröffentlicht wurde. Die erste Nummer steht beispielsweise für die Sprache, in der das Buch herauskam, die letzten zwei Ziffern sind Prüfziffern, auch Checksumme genannt. Diese Checksumme steht am Ende der ISBN, um feststellen zu können, ob diese echt oder möglicherweise ausgedacht ist – oder einen Tippfehler enthält. Sie wird durch eine mathematische Formel berechnet.
Hier geht es zum Vortrag „AI-generated content in Wikipedia - a tale of caution" auf Englisch.
Falsche Fakten würden in andere Sprachen übernommen
Schindler hatte zum Prüfen der einen Checksum-Checker programmiert. Er erwartete eigentlich, Tippfehler in ISBN-Quellenangaben zu finden und Fälle, in denen sich ein Verlag nicht an die eigentlichen Standards der Nummer gehalten hat – menschliche Fehler. Diese fand er auch, doch darüber hinaus stieß er auf ein weiteres Problem: frei erfundene ISBNs. Ohne es anfangs geplant zu haben, setzte er also künstliche Intelligenz gegen die falschen KI-generierten Inhalte ein, die der Internet-Enzyklopädie hinzugefügt worden waren. Denn zum Schreiben des Codes seines Checksum-Checkers kommunizierte und plante er mit der LLM Claude. „Ich hätte das nicht ohne die Hilfe von KI machen können“, steht auf einer seiner Präsentationsfolien.
Sein Programm stieß auf Autoren, die KI beim Verfassen von Texten auf Wikipedia verwendet hatten, sowohl für Texte als auch für die Quellensuche. „Als ich sie fragte, welche Prompt (Befehl an die Ki; Anm. d. Red.) sie verwendet haben, um die Texte von einer KI schreiben zu lassen, erhielt ich die kreativsten Ausreden“, sagt Schindler. Oft sagten sie, sie seien bei der LLM nicht eingeloggt gewesen, hätten die Chatverläufe nicht mehr.
Zum Teil verbreiteten sich die ausgedachten Quellen noch über Deutschland hinaus. Sowohl die KI-ausgedachten ISBNs als auch die dazugehörigen „Fakten“ auf Wikipedia wurden in andere Sprachen übersetzt.
Blindes Vertrauen oder Böswilligkeit?
Doch wieso nutzen Menschen überhaupt künstliche Intelligenz, um Wikipedia-Texte zu schreiben? Schindler kann dazu nur Vermutungen aufstellen. Er hat drei Theorien: Entweder die Autoren wissen einfach nicht, dass LLMs auch faktisch falsche Texte schreiben – und vertrauen blind der Technologie. Oder, sie wollen zwar für Wikipedia schreiben, haben aber nicht die nötigen Rechercheskills dafür und wollen das durch die Nutzung von KI verschleiern. Oder: Sie wollen böswillig und bewusst Fakten auf Wikipedia zu Falschinformationen verändern.
„Kann oder will ein Autor nicht genau aufzeigen, wie er KI beim Verfassen seiner Texte verwendet hat, löschen wir alle Texte, die er seit November 2022 veröffentlicht hat“, sagt Schindler. „Es ist aufwändig, die falschen KI-generierten Inhalte wieder aus Wikipedia herauszulöschen“, setzt er fort. Zeit, in denen die Menschen hinter Wikipedia eben keine Texte schreiben können.
Schindlers Erkenntnis hat dazu geführt, dass zumindest aus dem deutschsprachigen Wiki schon zahlreiche KI-generierte Inhalte entfernt wurden. Sein Checksum-Checker und das Wissen über die halluzinierten Quellen verbreiten sich nun auch in den anderssprachigen Wiki-Communitys.
Falschinformationen schaden auch den Sprachmodellen
Doch können damit alle KI-generierten Inhalte aus Wikipedia wieder herausgefischt werden? Nein. Jedoch ermöglicht das Prüfen der Kennzahlen immerhin Ansatzpunkte für den Verdacht, dass KI für das Generieren von Inhalten verwendet wurde.
Solche Inhalte zu finden und herauszulöschen, ist wichtig, denn falsche Referenzen können sonst von Wikipedia von anderen Menschen übernommen werden, für Uni-Arbeiten, in Präsentationen, in Nachrichtenartikeln. So verbreiten sich dann die falschen Quellenangaben munter im Internet, wenn sie eben nicht gefunden und gelöscht werden.
„Die KI-Firmen vergiften außerdem das Wasser, von dem sie trinken“, sagt Schindler vor dem Kongresspublikum. Denn LLMs werden bei der Entwicklung mit Inhalten von validen Quellen gefüttert – wie eigentlich Wikipedia.
Dass sich KI-Unternehmen ungefragt an Wikipedia-Inhalten bedienen, verursacht zudem Kosten für die Plattform. Und seit Monaten wird verzeichnet, dass immer mehr KI auf Wiki-Artikel zugreift – und immer weniger Menschen. Doch wenn diese von existierenden Sprachmodellen mit falschen Informationen gefüllt werden, werden auch neue Sprachmodelle direkt schon mit Falschinformationen gefüttert.
Gemeinsam für freie Presse
Als Genossenschaft gehören wir unseren Leser:innen. Und unser Journalismus ist nicht nur 100 % konzernfrei, sondern auch kostenfrei zugänglich. Alle Artikel stellen wir frei zur Verfügung, ohne Paywall. Gerade in diesen Zeiten müssen Einordnungen und Informationen allen zugänglich sein. Unsere Leser:innen müssen nichts bezahlen, wissen aber, dass kritischer, unabhängiger Journalismus nicht aus dem Nichts entsteht. Dafür sind wir sehr dankbar. Damit wir auch morgen noch unseren Journalismus machen können, brauchen wir mehr Unterstützung. Unser nächstes Ziel: 50.000 – und mit Ihrer Beteiligung können wir es schaffen. Setzen Sie ein Zeichen für die taz und für die Zukunft unseres Journalismus. Mit nur 5,- Euro sind Sie dabei! Jetzt unterstützen
meistkommentiert