piwik no script img

AI-Verordnung der EUStreit um KI-Training mit Artikeln

Der neue AI-Act der EU lässt Fragen nach dem Verhältnis von Medien und KI offen. Zum Beispiel: Darf man KIs mit journalistischen Texten füttern?

Die KIs werden auch mit journalistischen Texten trainiert Foto: Michael Gstettenbauer/imago

taz | Künstliche Intelligenz (KI) wird immer klüger, weil sie mit journalistischen Texten trainiert wird. Bisher bekommen Jour­na­lis­t:in­nen dafür aber keinen Cent. Die geplante KI-Verordnung der EU, auch AI-Act genannt, soll zumindest für Transparenz sorgen und Medien die Durchsetzung ihrer Interessen erleichtern.

Der AI-Act ist eine Verordnung der EU, die ohne weitere Umsetzung direkt in allen EU-Staaten gilt. Der entscheidende Passus für Jour­na­lis­t:in­nen steht in Artikel 52c. Danach müssen die Anbieter von großen KI-Sprachmodellen „ausreichend detaillierte Zusammenfassungen“ veröffentlichen, mit welchen Texten sie ihre KI trainiert haben.

Diese Passage wurde auf Druck der deutschen „Initiative Urheberrecht“ aufgenommen, einem Zusammenschluss von rund 40 Organisationen der Kreativwirtschaft. „Ausreichend detailliert ist eine Zusammenfassung, wenn sie den Urhebern hilft, ihre Rechte durchzusetzen“, sagt Hanna Möllers, die Justiziarin des Deutschen Journalistenverbands (DJV), die an den Verhandlungen beteiligt war.

Recht auf Schadenersatz

Die entscheidende Frage bleibt aber offen. Durften KI-Firmen wie Open AI, bekannt für ChatGPT, ohne zu fragen und zu bezahlen ihre Modelle mit journalistischen und anderen Texten trainieren? Wenn nein, dann können betroffene Urheber auf Schadenersatz klagen, um an den zu erwartenden Gewinnen zu partizipieren.

Die Firmen berufen sich auf eine Sonderregelung für Text- und Data-Mining (TDM), die 2019 in die EU-Urheberrichtlinie eingefügt wurde und inzwischen auch im deutschen Urheberrechtsgesetz (§ 44b) steht. Wenn große Text- und Datenmengen maschinell durchsucht werden, um Muster zu erkennen, müssen die Firmen weder fragen noch zahlen. Die Urheber haben dann nur die Möglichkeit, dies generell zu verweigern. Bei Texten, die im Internet stehen, muss der Vorbehalt „maschinenlesbar“ sein. Doch der Text wird dann oft auch nicht mehr von Suchmaschinen gefunden.

Die Initiative Urheberrecht hält die Data-Mining-Ausnahme ohnehin nicht für anwendbar. „Mustererkennung und KI-Training ist nicht dasselbe“, so Möllers. Die Initiative prüft mit dem Verlegerverband BDZV nun eine Klage.

KI-Training nicht leicht nachweisbar

Dabei gibt es mehrere Probleme. Es muss ein Kläger gefunden werden, dessen Text nachweisbar für KI-Training benutzt wurde. Das ist nicht so einfach, denn die neue Transparenzpflicht durch den AI-Act gilt erst nach einer Übergangszeit.

Dazu sitzen die meisten KI-Firmen in den USA, wo sie wohl auch ihre KI trainiert haben. In den USA gibt es keine Data-Mining-Ausnahme, sondern eine Ausnahme für „Fair use“ (angemessene Verwendung). In den USA ist schon rund ein Dutzend Klagen anhängig, die bekannteste stammt von der New York Times und richtet sich gegen Open AI.

Neben den Gerichten hofft die Initiative Urheberrecht auch weiter auf den Gesetzgeber. Ab 2026 wird die EU-Urheberrichtlinie evaluiert. Dann soll, so die Forderung, eine ausdrückliche Vergütungspflicht für das Training von KI-Modellen in die Richtlinie aufgenommen werden. Die Zahlungen der KI-Firmen könnten dann von Verwertungsgesellschaften wie der VG Wort eingefordert und an die Jour­na­lis­t:in­nen verteilt werden.

taz lesen kann jede:r

Als Genossenschaft gehören wir unseren Leser:innen. Und unser Journalismus ist nicht nur 100 % konzernfrei, sondern auch kostenfrei zugänglich. Texte, die es nicht allen recht machen und Stimmen, die man woanders nicht hört – immer aus Überzeugung und hier auf taz.de ohne Paywall. Unsere Leser:innen müssen nichts bezahlen, wissen aber, dass guter, kritischer Journalismus nicht aus dem Nichts entsteht. Dafür sind wir sehr dankbar. Damit wir auch morgen noch unseren Journalismus machen können, brauchen wir mehr Unterstützung. Unser nächstes Ziel: 40.000 – und mit Ihrer Beteiligung können wir es schaffen. Setzen Sie ein Zeichen für die taz und für die Zukunft unseres Journalismus. Mit nur 5,- Euro sind Sie dabei! Jetzt unterstützen

Mehr zum Thema

2 Kommentare

 / 
  • 0G
    06438 (Profil gelöscht)

    ""Durften KI-Firmen wie Open AI, bekannt für ChatGPT, ohne zu fragen und zu bezahlen ihre Modelle mit journalistischen und anderen Texten trainieren?""



    ===



    Absolutes kategorisches NEIN.

    Der Satz ""Künstliche Intelligenz (KI) wird immer klüger, weil sie mit journalistischen Texten trainiert wird"" stimmt nur bedingt. Natürlich wird KI Zeit & Anstrengung sparen wenn es darum geht Zusammenfassungen und Analysen zu erstellen. Schon jetzt kann Ki besser als das menschliche Auge oder ärztliches Fachwissen treffsicher Krankheiten erkennen und analysieren.

    Nur - KI wird keinen Journalisten ersetzen - solange KI weder ein Interview führen kann noch die Fähigkeit besitzt Pateiveranstaltung zu kommentieren.

    KI basiert auf Speicherung vorhandener Daten: Ohne Infos aus Milliarden von Artikeln wird KI keine Antworten finden. KI ist nutzlos ohne die von Journalisten aufbereiteten NEUEN Infos

    Dafür müssen Verlage/Zeitungen bezahlt werden - auch um das folgende Problem zu lösen: Die derzeitige Spaltung westlicher Gesellschaften haben viele Ursachen. Eine Ursache ist die immer weiter ausdifferenzierte Versorgung und Verarbeitung von gesellschaftsrelevanten Informationen. Die Zeitungen machen dicht



    & errichten Paywalls um Einkommen zu generieren mit dem schädlichen Effekt



    das journalistische Arbeit immer weniger in den allgemeinen Meinungsbildungs-Prozess einfließt und anscheinend durch schräge Aktivitäten in den sozialen Medien ersetzt wird.

    Wenn Grunddaten für KI bezahlt werden erübrigt sich mindestens das Problem das bei Artikeln die Paywall erhalten bleibt. Es macht keinen Sinn wenn Infos über ChatGPT erhältlich sind aber Artikel gleichzeitig über die Paywall gesperrt bleiben. Da in wenigen Jahren ChatGPT von der Mehrheit genutzt werden wird - wird sich auch die Verbreitung von Tatsachen in der Gesellschaft erhöhen und dadurch das Spaltungsrisiko spürbar verringern.

    • @06438 (Profil gelöscht):

      Ein Sprachmodell zu trainieren ist etwas anderes als Daten zu speichern. Es geht da ja nicht darum, dass diese Modelle Bezahl-Artikel oder Bücher auf eigene Rechnung weiterveröffentlichen würden.

      Wenn ich einen solchen Bezahl-Artikel lese, darf ich daraus sehr wohl etwas lernen und die Informationen darin zusammenfassen oder meine daraus gezogenen Schlüsse weitergeben, ohne für jeden, der das dann hört oder liest, Lizenzkosten bezahlen zu müssen. Auch wenn die Urheber genau das wahrscheinlich sehr gerne hätten.

      Ist aber letztlich auch egal, Europa ist auf diesem Gebiet (wie auch auf vielen anderen) völlig abgehängt und irrelevant geworden. Schlimmstenfalls wird der Rest der Welt halt Europa auch in dieser Hinsicht einfach ignorieren und solche Systeme werden halt nur den Rest der Welt widerspiegeln.

      Das ist ja jetzt schon ein Problem, weil Texte in jeder der vielen europäischen Sprachen jeweils nur einen winzigen Teil des Trainings ausmachen und die Ergebnisse deshalb schlechter sind. Die Dinger werden halt vor allem mit englischsprachigen (oder in China halt chinesischen) Texten trainiert, nur am Rande auch mit deutschen, niederländischen oder französischen Texten.

      Wenn Europa immer nur die Arbeit anderer benutzen will anstatt selber etwas auf die Reihe zu bekommen, das aber alles kontrollieren und einschränken will, darf sich nicht wundern, wenn er irgendwann gar nichts mehr hat.

      Man könnte diese "Verordnung" ja auf Systeme begrenzen, die auf europäischer Hard- und Software läuft... ach, die gibt es ja gar nicht.