Künstliche Intelligenz: Kaufen, scannen, füttern
Eine Online-Plattform bestellt seit einiger Zeit größere Mengen alter Bücher. Händler:innen spekulieren über Betrug, doch vieles spricht für KI-Training.
Der Spuk begann in der Nacht. Um 2.53 Uhr am 30. April ging die erste Bestellung ein bei dem Buchverkäufer Michael Ströter. Dann die nächste, dann die nächste. Wer da orderte, war kein:e Privatkäufer:in, sondern immer dasselbe Unternehmen: Zoom Books, eine kanadische Plattform, die sich als „Nordamerikas führende Firma für Buchrecycling“ bezeichnet. Nach eigenen Angaben kauft das Unternehmen Bücher an, nimmt Bücherspenden entgegen, verkauft Bücher – und recycelt, was unverkäuflich ist. Ihr Markt sind die USA und Kanada. Was will Zoom Books mit gebrauchten, eher nischigen deutschsprachigen Büchern?
Ströter verkauft antiquarische Bücher. Früher hatte er mal einen Laden in Bielefeld, mittlerweile ist er in Rente und verkauft hobbymäßig weiter. Maximal drei Bücher an einem Tag sind es normalerweise, erzählt er am Telefon. Bis die merkwürdigen Bestellungen eingingen. Eine, zwei, drei, immer mehr, immer nach demselben Muster: nachts, geordert von Zoom Books, zu senden zunächst an ein Lager in den USA. Wie sollte er die Lieferungen angesichts von Zoll, Porto und Formalitäten überhaupt abwickeln? Ströter stornierte die Bestellungen.
Der Bielefelder ist nicht der einzige Händler, der das Phänomen beobachtet. In Branchenforen und auf Reddit sind die merkwürdigen Bestellungen Thema – und Gegenstand von Spekulationen über die Ursachen. Manche vermuten, Zoom Books wolle sich als Anlaufstelle für vergriffene und schwer erhältliche Bücher etablieren. Andere halten die Bestellungen für einen Kreditkartenbetrug oder eine andere Betrugsmasche.
Die Bestellungen scheinen sich nicht auf eine Weltregion zu beschränken. Berichte darüber gibt es aus Bulgarien, Großbritannien, Deutschland und Neuseeland. Häufig geht es um zweistellige Stückzahlen günstiger Bücher, deren Versandkosten den Warenwert mitunter übersteigen. Viele Händler berichten zudem, dass die Bestellungen zwar im Namen von Zoom Books erfolgen, die Bücher aber an Adressen in den USA geliefert werden sollen – mutmaßlich an Logistikzentren von Amazon.
Steckt KI dahinter?
Bei all den Spekulationen sticht eine Theorie heraus – weil sie den ganzen Vorgang sowohl plausibel erklären könnte als auch in die Zeit passt: Es könnte um Künstliche Intelligenz (KI) gehen. Denn die Modelle, die KI-Chatbots wie ChatGPT, Gemini, Mistral oder Perplexity zu Grunde liegen, müssen mit großen Datenmengen trainiert werden. Große Datenmengen gibt es zwar im Internet. Aber hier sind sie unsortiert und häufig von durchwachsener Qualität.
Die Unternehmen hinter diesen Modellen haben Bücher daher früh als Trainingsmaterial entdeckt. Große Mengen aktueller Titel legal zu erwerben – ob gedruckt oder digital – wäre allerdings teuer. Einige griffen deshalb auf sogenannte Schattenbibliotheken zurück: illegale Büchersammlungen auf Servern, aus denen Nutzer Werke herunterladen und zugleich wieder bereitstellen können. Das Prinzip ist ähnlich wie das von illegalen Musiktauschbörsen.
Gegen diese unhonorierte Ausbeutung ihrer Werke gehen wiederum die Autor:innen auf die Barrikaden. Im vergangenen Jahr haben sie einen größeren Erfolg erzielt: Das KI-Unternehmen Anthropic einigte sich mit US-Autor:innen auf einen Vergleich. Damit ist eine Sammelklage beendet, die Anthropic eine unrechtmäßige Nutzung von Büchern für das KI-Training vorwarf. Das Unternehmen verpflichtete sich, mindestens 1,5 Milliarden US-Dollar an Autor:innen zu zahlen. Pro Buch sollen das Medienberichten zufolge rund 3.000 US-Dollar sein.
Legal wäre nach US-Recht allerdings das Training von KI-Modellen mit rechtmäßig erworbenen Büchern. Und hier kommen die Bestellungen bei Händler Ströter und anderen Antiquaren wieder ins Spiel. Kauft ein Unternehmen große Mengen günstiger Gebrauchtbücher, zerlegt sie und scannt sie ein, könnten die Texte anschließend zum Training von KI-Modellen genutzt werden.
Dass dies keine abwegige Theorie ist, zeigt ein Gerichtsdokument aus dem Verfahren gegen Anthropic. Darin heißt es, das Unternehmen habe nicht nur Millionen Bücher aus dem Internet heruntergeladen, sondern auch gedruckte Werke gekauft, die Bindungen entfernt, die Seiten zugeschnitten, eingescannt und als durchsuchbare PDF-Dateien gespeichert.
Was sagt der Käufer?
Zoom Books erklärt auf Anfrage, nichts über die Abnehmer der von ihnen gekauften Bücher sagen zu können. „Aber wir wollen klarstellen, dass Zoom Books, im Gegensatz zu jüngsten Spekulationen, keine Bücher digitalisiert und zerstört“, erklärt Reed Pannell, bei Zoom Books für Wachstum zuständiger Manager. Und wäre es denn möglich, dass Zoom Books das zwar nicht selbst macht, aber die Bücher weiterverkauft an ein Unternehmen, das selbiges tut? Hier erwidert Reed nur erneut, dass man keine Auskünfte über die Abnehmer geben könne.
Mittlerweile dürften jedenfalls auch die ersten Bücher eingegangen sein, die zuvor noch bei Ströter lagerten. Denn offenbar hat sich das Unternehmen den Bedingungen der europäischen Händler:innen angepasst. Lieferadresse ist nun ein Lager im sächsischen Kodersdorf.
Ströter sieht das Ganze mit gemischten Gefühlen. „Das Gute ist, dass ich meine Ladenhüter loswerde“, sagt er. Zuletzt etwa ein Buch aus den 70er Jahren, das die Fernseherziehung in Jugend- und Kinderheimen untersuchte. „Aber diese Sachen sind nicht mehr aktuell und entsprechen auch nicht dem Stand der Wissenschaft.“ Er wünsche sich eine Debatte darüber, mit was für Material KI-Modelle eigentlich trainiert werden.
Tatsächlich halten die Konzerne das geheim. Die Ausnahme bilden Open-Source-Modelle wie das Schweizer Apertus. Hier haben die Entwickler:innen unter anderem die Trainingsdaten offengelegt. Die EU-Regeln für KI, der AI Act, schreiben zwar auch ein gewisses Maß an Transparenz bei den Trainingsdaten vor. Das bleibt jedoch eher oberflächlich. Denn eins zu eins offenlegen müssen die Anbieter ihre Trainingsdaten nicht – eine „hinreichend detaillierte“ Zusammenfassung reicht aus. Was das heißt, werden am Ende wohl Gerichte entscheiden müssen.
Die taz gehört zu 100 Prozent ihren Leser:innen und ist damit nicht nur konzernfrei, sondern auch kostenfrei zugänglich. Alle Artikel stellen wir frei zur Verfügung, ohne Paywall. Gerade in diesen Zeiten müssen Einordnungen und Informationen allen zugänglich sein. Unsere Leser:innen müssen nichts bezahlen, wissen aber, dass kritischer, unabhängiger Journalismus nicht aus dem Nichts entsteht. Dafür sind wir sehr dankbar. Damit wir auch morgen noch unseren Journalismus machen können, brauchen wir mehr Unterstützung für taz zahl ich. Unser nächstes Ziel: 50.000 – wir brauchen nur noch 210 Freiwillige, dann haben wir es geschafft! Setzen Sie jetzt ein Zeichen für die taz und machen Sie mit. Mit nur 5,- Euro sind Sie dabei! Jetzt unterstützen
Starten Sie jetzt eine spannende Diskussion!