Ideologie und künstliche Intelligenz: Geschichten von morgen
Auch wenn sie tolle Texte schreiben, KIs haben ein Problem: Sie werden vorwiegend mit westlichen Quellen trainiert. Mehr Diversität ist nötig.
Die Sprach-KI ChatGPT hat einen riesigen Hype ausgelöst. Das automatisierte Dialogsystem, das von der US-Softwareschmiede Open AI entwickelt wurde, bearbeitet auf Knopfdruck Anfragen. Man gibt einfach eine Frage oder Anweisung in das Chatfenster ein, Sekunden später schickt die KI einen druckreifen Text. Bewerbungen, Drehbücher, Gedichte – das Sprachmodell beherrscht alle Textgattungen. Sogar beim Programmieren kann das Tool helfen: Es schreibt auch Codes.
Empfohlener externer Inhalt
Die KI, die mit einer riesigen Textmenge aus verschiedenen Internetquellen trainiert wurde, errechnet auf Basis eines statistischen Modells eine Wahrscheinlichkeit für das Auftreten des nächsten Wortes. Die sprachliche Qualität der Texte ist beeindruckend – erschreckend beeindruckend sogar. Wie von Geisterhand schreibt der Bot Texte so sehr im Stile von Franz Kafka oder Ernest Hemingway, dass man meinen könnte, die Literaten hätten wiederauferstanden selbst in die Tasten gegriffen.
In der zuweilen sehr technisch geführten Diskussion wird jedoch ein Umstand oft außer Acht gelassen: Computerprogramme sind Artefakte und damit auch kulturell geprägt. KI-Systeme und Sprachmodelle im Besonderen werden von Menschen programmiert. Und die implementieren nicht nur mathematische, sondern auch soziale Werte. ChatGPT ist schon jetzt eine Storytelling-Maschine, die es mit der Diskursmacht von Disney oder Hollywood aufnehmen könnte. Die Frage, wie dieses Computersystem lernt, hat daher auch gesellschaftspolitische Relevanz.
Der Umgangston von BBC und Reddit
Schaut man sich das Vorgängermodell GPT-3 an, fällt auf, dass die KI mit überwiegend englischsprachigen Texten trainiert wurde. 60 Prozent der Trainingsdaten stammen aus dem Webarchiv des Common Crawl, einer kalifornischen Nichtregierungsorganisation, die nach eigenen Angaben 50 Milliarden Webseiten archiviert hat. Darunter sind seriöse Quellen wie die New York Times und BBC, aber auch weniger verlässliche wie das Online-Forum Reddit, eine Art Internet-Stammtisch, wo sich Nutzer auch mal Aktientipps geben oder Verschwörungstheorien diskutieren.
Schon allein mit dieser Quellenauswahl wird also ein bestimmtes Weltbild transportiert. Der Rest des Trainingsmaterials stammt unter anderem aus Büchersammlungen und Wikipedia. Das Online-Lexikon, mit dessen rund sechs Millionen englischsprachigen Artikeln auch ChatGPT gefüttert wurde, ist noch immer ein Club von weißen, englischsprachigen Männern, die überwiegend in christlich geprägten Ländern auf der Nordhalbkugel leben. Und diese Männer schreiben hauptsächlich für Männer und über Männer. Aktuell sind lediglich rund 17 Prozent der Biografien auf der deutschen Wikipedia jene weiblicher Personen.
Zwar macht Wikipedia nur einen kleinen Teil der Trainingsdaten aus (die Gewichtung bei GPT-3 lag bei 3 Prozent). Durch die Mechanik von Sprach-KIs wird dieser Gender Bias jedoch verstärkt.
Die zugrundeliegende Technik der Rekombinatorik sorgt nämlich dafür, dass manche Wortkombinationen in häufigerer Frequenz auftauchen und Stereotype förmlich aneinanderkleben. So haben Forscher der Entwicklerorganisation Open AI in einer Studie herausgefunden, dass GPT-3 weibliche Pronomina mit tendenziell sexistischen Adjektiven wie „naughty“ (unanständig, verrucht) und „gorgeous“ (wunderschön) verknüpft, während Männern eher geschlechtsneutrale Eigenschaften wie „sympathisch“ oder „groß“ zugeschrieben werden. Vor diesem Hintergrund verwundert es nicht, dass das Sprachmodell auch bei den Weltreligionen stereotype Muster zeigt: So brachte GPT-3 den Islam mit Worten wie „gewaltsam“ und „Terrorismus“ in Verbindung. Ist die künstliche Intelligenz islamophob?
Ein solches Urteil griffe gewiss zu kurz. Computer können schon allein deshalb keine Islamhasser sein, weil es ihnen an einem Bewusstsein fehlt. Aber sie reproduzieren eben auch Vorurteile ihrer Entwickler. Und das sind überwiegend weiße Männer aus der amerikanischen Mittel- und Oberschicht. Insofern ist KI auch ein Spiegel der Gesellschaft.
„Orientalistische Machtstrukturen“
Die Bloggerin Francesca Scapolo kritisierte in einem Essay für die Plattform „Medium“, „westliche Algorithmen“ würden „orientalistische Machtstrukturen perpetuieren“.
Die romantisierte Darstellung des Vorderen und Mittleren Orients, die als Legitimationsfolie für die kolonialen und imperialistischen Bestrebungen diente, und die daraus resultierenden Terrorismus-Diskurse würden durch Sprachmodelle wie GPT-3 zementiert. Wo sich die Sprach-KI einerseits am Kanon westlicher Kultur bedient, ist sie andererseits auf die Handarbeit von Menschen angewiesen, deren Kultur sie weitgehend ausblendet. So wurde bekannt, dass Open AI Clickworker in Kenia anheuerte, die für 2 Dollar die Stunde sexistische und gewaltverherrlichende Texte labeln. Dieses Outsourcing zeigt einmal mehr, wie die Plattformökonomie Menschen im Globalen Süden für ihre datenhungrigen Maschinen ausbeutet.
Die kulturalistische Sichtweise setzt sich auch an anderer Stelle fort – zum Beispiel bei dem Bildgenerator DALL-E. Das Tool, das ebenfalls von Open AI stammt, verwandelt im Handumdrehen Texte in Bilder. Das Ölgemälde über Amerikas Krieg gegen den Terror zum Beispiel, welches die Bild-KI entwarf, steht in der Tradition europäischer Maler und erinnert in seiner düsteren Bildersprache an Caspar David Friedrich.
Kunstkritiker wenden ein, dass der Bildgenerator eurozentrisch und vergangenheitsorientiert sei und ästhetische Ideale anderer Weltregionen ausblende – wobei die Vergangenheitsfixierung auch in der Funktionsweise von KI-Systemen begründet liegt, deren Algorithmen aus „historischen“ Daten lernen. Dieser Modus Operandi wirft zum einen die Frage auf, welche ästhetischen Kriterien man künftig an Originalität anlegt, zum anderen, ob durch ein „Datawashing“ koloniale Betrachtungsweisen neu beglaubigt werden. Wie „weiß“ sind computergenerierte Werke?
Dekolonialisierung von KI
Zwar gibt es für DALL-E eigene Tools, mit denen sich beispielsweise japanische Drucke imitieren lassen. Aber das zugrundeliegende Weltbild bleibt – es lässt sich nicht mit einem Mausklick wegretuschieren. Der KI-Forscher Yilun Du brachte es auf den Punkt: „Man kann ein Modell nicht weniger westlich feintunen, wenn der Datensatz zum größten Teil westlich ist.“ Die Rufe nach einer Dekolonialisierung von KI werden daher lauter. In Afrika laufen Projekte im Bereich des Natural Language Processing (NLP), wo es nicht nur darum geht, Sprachmodelle auf eine breitere Datengrundlage zu stellen, sondern auch darum, afrikanische Erzählkunst zu berücksichtigen.
Die westliche Kultur fängt jedoch gerade erst an, die vielstimmige afrikanische Literatur zu hören – die Vergabe des Literaturnobelpreises 2021 an den tansanischen Schriftsteller Abdulrazak Gurnah liefert davon Zeugnis. Wie also lässt sich mehr Diversität herstellen?
Ein erster Schritt wäre es, den literarischen Kanon zu erweitern. Der BookCorpus, eine Sammlung von Tausenden Büchern, mit denen alle einflussreichen Sprachmodelle trainiert werden (neben GPT unter anderen auch Googles BERT), enthält vor allem Werke, die in der westlichen Kultur rezipiert werden. Dabei machen es die Fortschritte automatisierter Sprachsoftware überhaupt erst möglich, auch solche Werke zu erschließen, deren Übersetzung bislang aus wirtschaftlichen Gründen nicht realisiert werden konnte – etwa aus dem Indonesischen, wo es viele hierzulande unbekannte Literaten gibt. Und genau darum geht es: Wer erzählt die Geschichten von morgen? Menschen aus aller Welt? Oder Maschinen aus den USA?
taz lesen kann jede:r
Als Genossenschaft gehören wir unseren Leser:innen. Und unser Journalismus ist nicht nur 100 % konzernfrei, sondern auch kostenfrei zugänglich. Texte, die es nicht allen recht machen und Stimmen, die man woanders nicht hört – immer aus Überzeugung und hier auf taz.de ohne Paywall. Unsere Leser:innen müssen nichts bezahlen, wissen aber, dass guter, kritischer Journalismus nicht aus dem Nichts entsteht. Dafür sind wir sehr dankbar. Damit wir auch morgen noch unseren Journalismus machen können, brauchen wir mehr Unterstützung. Unser nächstes Ziel: 40.000 – und mit Ihrer Beteiligung können wir es schaffen. Setzen Sie ein Zeichen für die taz und für die Zukunft unseres Journalismus. Mit nur 5,- Euro sind Sie dabei! Jetzt unterstützen
meistkommentiert
Hype um Boris Pistorius
Fragwürdige Beliebtheit
James Bridle bekommt Preis aberkannt
Boykottieren und boykottiert werden
Russischer Angriff auf die Ukraine
Tausend Tage Krieg
Kanzlerkandidat-Debatte
In der SPD ist die Hölle los
Abschluss G20-Gipfel in Brasilien
Der Westen hat nicht mehr so viel zu melden
Verfassungsklage von ARD und ZDF
Karlsruhe muss die unbeliebte Entscheidung treffen