KI-Trainingsdaten blockieren: Das große Crawlen
KI-Unternehmen klauen Wissen, das andere mühsam zusammengetragen haben. Ein Unternehmen will hungrige Bots blockieren. Was macht das mit dem Internet?

Statt Suchmaschinen weisen immer mehr KI-Chatbots den Weg im Internet. Die Art, wie Menschen dort surfen, verändert sich derzeit massiv. Unklar ist nur, wie drastisch die Veränderung aussieht und wem sie nützt.
Treffen könnte der Wandel alle, die Geld mit Texten im Internet verdienen, ob Blog, Magazin oder Verlagshaus. Sie leben davon, dass Menschen Informationen und Unterhaltung suchen. Das Geld kommt von der geschalteten Werbung oder vom verkauften Abonnement. Wenn Menschen zunehmend ihre Neugierde mit Fragen an Chatbots stillen und die eigentlichen Websites mit den Texten nicht mehr direkt aufrufen, brechen diese Einnahmen ein.
Ein Indiz, in welche Richtung es geht, sind „Zero-Click-Searches“. Das sind Suchen via Google, bei denen die Suchenden keine Website öffnen, sondern nur bei der Suchmaschine verweilen. Seit Google KI-Zusammenfassungen als Antwort auf Suchanfragen ausspielt, sind diese Zero-Click-Searches drastisch gestiegen.
„Das ist ein ernstzunehmendes Problem“, sagt Eric Kubitz, Head of AI beim Wort und Bild Verlag, der unter anderem die Apotheken Umschau herausgibt. „Wir werden bei Google-Suchen zwar häufiger angezeigt, aber haben trotzdem 20 bis 30 Prozent weniger Klicks.“ Andere Verlage berichten, dass sie die Zero-Click-Searches zwar noch nicht spüren, aber Sorgen machen sich viele.
Dieser Text stammt aus der wochentaz. Unserer Wochenzeitung von links! In der wochentaz geht es jede Woche um die Welt, wie sie ist – und wie sie sein könnte. Eine linke Wochenzeitung mit Stimme, Haltung und dem besonderen taz-Blick auf die Welt. Jeden Samstag neu am Kiosk und natürlich im Abo.
Dazu kommt, dass die KI-Unternehmen selbst keine Journalist*innen beschäftigen, um neues Material zu recherchieren. Stattdessen zapfen sie Inhalte an, die andere zusammengetragen haben. Das machen sie automatisiert mit Bots, sogenannten Crawlern. Die New York Times verklagte deshalb 2023 OpenAI und Microsoft wegen Urheberrechtsverletzung. Doch solche Klagen sind kompliziert und viele Verlage, geschweige denn einzelne Autor*innen, haben die Mittel dafür nicht.
Letztlich ging die New York Times diesen Mai dann einen zweiten Weg und schloss einen KI-Deal mit Amazon. Solche Abkommen gibt es jedoch derzeit nur mit den größten Verlagen. „Mit uns reden die gar nicht, weil wir es viel schwerer haben zu klagen“, sagt Kubitz. Die Vereinbarungen hält er auch grundsätzlich für eine schlechte Idee. „Bei Content Deals ist es wie bei Spotify, man meldet seine Musik an und man kriegt irgendwas, im Zweifel sehr wenig und es fehlt die Transparenz.“
Ein weiteres Problem sei, dass die zunehmenden Bot-Besuche die Websites belasten, sagt Kubitz. „Da all diese Abfragen viel Traffic bei uns verursachen, kostet uns das Geld.“ Denn Server werden häufig für Bandbreite und Nutzung bezahlt.
Einige Verlage versuchen unterdessen, Crawler von ihren Websites auszusperren. Die rechtliche Grundlage dafür gibt es. Der EU AI Act verbietet das Anzapfen von urheberrechtlich geschützten Inhalten ohne Einverständnis. Doch nicht alle KI-Firmen scheinen sich daran zu halten. Kubitz etwa verdächtigt vor allem den chinesischen Anbieter Deepseek und auch Grok von Elon Musks Firma xAI, Sperren zu umgehen. Möglich ist das, weil die aktuell eingesetzte Lösung eher eine Bitte anstatt einer wirklichen Sperre ist. Der Schutz vieler Websites besteht aus einer sogenannten robots.txt-Datei: einem Textdokument, in dem steht, welche Bots die Seite nicht besuchen sollen. Diese Datei stellt jedoch keine technische Hürde dar, die Bots können sie einfach ignorieren.
Eine potenzielle Lösung bietet nun das US-Unternehmen Cloudflare, ein Anbieter von Infrastruktur für Websites. Es bietet etwa Sicherheitsdienste und Serverleistung an. Man könnte sagen: Wäre das Internet ein Flughafen, dann wäre Cloudflare so etwas wie Tower, Sicherheitsdienst und Landebahnwartung in einem. Nach eigenen Angaben nutzen etwa 20 Prozent aller Websites weltweit Cloudflare, bei den meistbesuchten Websites sind es je nach Zählweise 30 bis 40 Prozent. Wenn diese Firma ankündigt, es ihren Kund*innen zu ermöglichen, mit einem Klick alle Crawler effektiv zu blockieren, dann ist ihr Aufmerksamkeit sicher. Gleichzeitig testet Cloudflare aktuell auch die Möglichkeit, Bots für das Crawlen pro Seite bezahlen zu lassen.
Das gefällt nicht allen. Der CEO des KI-Unternehmens Perplexity etwa, Aravind Srinivas, wirft Cloudflare vor, sowohl bei den Websitesbetreibenden als auch bei den KI-Unternehmen abkassieren zu wollen.
Cloudflare hingegen ist überzeugt, dass es für ihr Tool Bedarf gibt. „Als Content-Creator*in sollte man selbst entscheiden können, wie die eigenen Inhalte von anderen zu kommerziellen Zwecken genutzt werden“, sagt Will Allen, Vice President of Product von Cloudflare. „Wir sind wie die Türsteherin, die vor einer Bar steht und die Ausweise kontrolliert. Wer reinkommt, das liegt bei den Betreibenden. Wir helfen nur dabei, das auch wirklich durchzusetzen.“
Simeon Räthel würde da widersprechen. Jede technische Führungskraft wisse, „dass Cloudflare nicht the way to go ist. Was sie aber können, ist Vertrieb.“ Räthel ist Mitgründer von Centinel Analytica. Die deutsche Cloudflare-Konkurrenz hat sich auf das Blockieren von Bots spezialisiert. Doch auch Räthel gibt zu, es sei „ein Katz-und-Maus-Spiel“ zwischen Bot-Entwicklung und Bot-Blockade. Ein vollständiger Schutz sei nicht möglich. „Das Ziel ist es, das Umgehen der Blockaden so teuer zu machen, dass es billiger wird, diejenigen zu bezahlen, die die Inhalte kreieren.“
Christoph Schmidt vom Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme sagt, die Technik, die Cloudflare jetzt vorgestellt hat, sei nichts Einzigartiges. Das könne im Grunde jede Website selbst machen, Cloudflare vereinfache es nur. „Da geht es um Aufmerksamkeit, es ist ein starker PR-Move“, sagt Schmidt. „Ich finde das aber gut, weil Cloudflare das Thema mit ihrer Macht aufs Tableau gebracht hat.“ Der Sachverhalt müsse aber eigentlich juristisch gelöst werden. Und es fehle immer noch ein funktionierendes Geschäftsmodell. Schmidt bezweifelt, dass Bots künftig für einzelne Artikelabrufe bezahlen werden, wie es Cloudflare aktuell testet.
Du liest einen Text aus unserem Zukunfts-Ressort. Wenn Du Lust auf mehr positive Perspektiven hast, abonniere TEAM ZUKUNFT, den konstruktiven Newsletter zu Klima, Wissen, Utopien. Jeden Donnerstag bekommst du von uns eine Mail mit starken Gedanken für dich und den Planeten.
Bei einer Sache sind sich jedoch alle einig, mit denen die taz für diesen Artikel gesprochen hat. Das Horrorszenario – dass das Internet zur Chatbox verkommt, die Verlage pleitegehen und Journalisten nur noch die KI mit Inhalten füttern – sei unwahrscheinlich. Christoph Schmidt etwa glaubt, dass der menschliche Artikel seinen Wert behalten werde. Gleichzeitig müsse man aber auch eine Form von Monetarisierung entwickeln, die sich für alle lohne. Eric Kubitz vom Wort und Bild Verlag schätzt, es werde weiterhin „Kuschelecken“ im Internet geben, wo einzelne lieb gewonnene Websites erfolgreich bleiben. „Aber es ist wie mit Innenstädten, da muss man sich mittlerweile anstrengen, eine richtig schöne zu finden. Es gibt sie zwar noch, aber das große Geldverdienen findet anderswo statt.“ Und einer widerspricht vehement bei der Frage, ob das Internet zur Chatbox zu verkommen drohe: Ole Reißmann, zuständig für KI beim Spiegel. Der Spiegel hat einen KI-Deal mit Perplexity. „Verkommt? Da gefällt mir die Konnotation nicht“, sagt Reißmann. „Eine Chatbox ist doch für die User viel besser als eine werbeüberladene Webseite, wo die Info sich hinter fünf Pop-ups versteckt.“
Wirklich? Mittlerweile kommen mehrere Studien zu dem Schluss, dass bei leidenschaftlichen KI-Nutzer*innen die Fähigkeiten, kritisch zu denken, abnehme. Ihre Bequemlichkeit bleibt wohl bestehen. Und der Sog, KI zu nutzen, wird so immer stärker.
taz lesen kann jede:r
Als Genossenschaft gehören wir unseren Leser:innen. Und unser Journalismus ist nicht nur 100 % konzernfrei, sondern auch kostenfrei zugänglich. Texte, die es nicht allen recht machen und Stimmen, die man woanders nicht hört – immer aus Überzeugung und hier auf taz.de ohne Paywall. Unsere Leser:innen müssen nichts bezahlen, wissen aber, dass guter, kritischer Journalismus nicht aus dem Nichts entsteht. Dafür sind wir sehr dankbar. Damit wir auch morgen noch unseren Journalismus machen können, brauchen wir mehr Unterstützung. Unser nächstes Ziel: 50.000 – und mit Ihrer Beteiligung können wir es schaffen. Setzen Sie ein Zeichen für die taz und für die Zukunft unseres Journalismus. Mit nur 5,- Euro sind Sie dabei! Jetzt unterstützen
meistkommentiert