Ideologie und künstliche Intelligenz: Geschichten von morgen

Auch wenn sie tolle Texte schreiben, KIs haben ein Problem: Sie werden vorwiegend mit westlichen Quellen trainiert. Mehr Diversität ist nötig.

Illustration: Ein Mensch in Raumfahrtanzug sitzt auf einem gescheckten Pferd und reitet. Im Hintergrund das Weltall.

So antwortet eine KI auf die Anforderung „ein Astronaut reitet ein Pferd“ (Ausschnitt) Foto: OpenAI/afp

Die Sprach-KI ChatGPT hat einen riesigen Hype ausgelöst. Das automatisierte Dialogsystem, das von der US-Software­schmiede Open AI entwickelt wurde, bearbeitet auf Knopfdruck Anfragen. Man gibt einfach eine Frage oder Anweisung in das Chat­fenster ein, Sekunden später schickt die KI einen druckreifen Text. Bewerbungen, Drehbücher, Gedichte – das Sprachmodell beherrscht alle Textgattungen. Sogar beim Programmieren kann das Tool helfen: Es schreibt auch Codes.

Wir würden Ihnen hier gerne einen externen Inhalt zeigen. Sie entscheiden, ob sie dieses Element auch sehen wollen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Die KI, die mit einer riesigen Textmenge aus verschiedenen Internetquellen trainiert wurde, errechnet auf Basis eines statistischen Modells eine Wahrscheinlichkeit für das Auftreten des nächsten Wortes. Die sprachliche Qualität der Texte ist beeindruckend – erschreckend beeindruckend sogar. Wie von Geisterhand schreibt der Bot Texte so sehr im Stile von Franz Kafka oder Ernest Hemingway, dass man meinen könnte, die Literaten hätten wiederauferstanden selbst in die Tasten gegriffen.

In der zuweilen sehr technisch geführten Diskussion wird jedoch ein Umstand oft außer Acht gelassen: Computerprogramme sind Artefakte und damit auch kulturell geprägt. KI-Systeme und Sprachmodelle im Besonderen werden von Menschen programmiert. Und die implementieren nicht nur mathematische, sondern auch soziale Werte. ChatGPT ist schon jetzt eine Storytelling-Maschine, die es mit der Diskursmacht von Disney oder Hollywood aufnehmen könnte. Die Frage, wie dieses Computersystem lernt, hat daher auch gesellschaftspolitische Relevanz.

Der Umgangston von BBC und Reddit

Schaut man sich das Vorgängermodell GPT-3 an, fällt auf, dass die KI mit überwiegend englischsprachigen Texten trainiert wurde. 60 Prozent der Trainingsdaten stammen aus dem Webarchiv des Common Crawl, einer kalifornischen Nichtregierungsorganisation, die nach eigenen Angaben 50 Milliarden Webseiten archiviert hat. Darunter sind seriöse Quellen wie die New York Times und BBC, aber auch weniger verlässliche wie das Online-Forum Reddit, eine Art Internet-Stammtisch, wo sich Nutzer auch mal Aktientipps geben oder Verschwörungstheorien diskutieren.

Schon allein mit dieser Quellenauswahl wird also ein bestimmtes Weltbild transportiert. Der Rest des Trainingsmaterials stammt unter anderem aus Büchersammlungen und Wikipedia. Das Online-Lexikon, mit dessen rund sechs Millionen englischsprachigen Artikeln auch ChatGPT gefüttert wurde, ist noch immer ein Club von weißen, englischsprachigen Männern, die überwiegend in christlich geprägten Ländern auf der Nordhalbkugel leben. Und diese Männer schreiben hauptsächlich für Männer und über Männer. Aktuell sind lediglich rund 17 Prozent der Biografien auf der deutschen Wikipedia jene weiblicher Personen.

GPT-3 beschreibt Frauen als „unanständig“, Männer aber sind „sympathisch“

Zwar macht Wikipedia nur einen kleinen Teil der Trainingsdaten aus (die Gewichtung bei GPT-3 lag bei 3 Prozent). Durch die Mechanik von Sprach-KIs wird dieser Gender Bias jedoch verstärkt.

Die zugrundeliegende Technik der Rekombinatorik sorgt nämlich dafür, dass manche Wortkombinationen in häufigerer Frequenz auftauchen und Stereotype förmlich aneinanderkleben. So haben Forscher der Entwick­lerorganisation Open AI in einer Studie herausgefunden, dass GPT-3 weibliche Pronomina mit tendenziell sexistischen Adjektiven wie „naughty“ (unanständig, verrucht) und „gor­geous“ (wunderschön) verknüpft, während Männern eher geschlechtsneutrale Eigenschaften wie „sympathisch“ oder „groß“ zugeschrieben werden. Vor diesem Hintergrund verwundert es nicht, dass das Sprachmodell auch bei den Weltreligionen stereotype Muster zeigt: So brachte GPT-3 den Islam mit Worten wie „gewaltsam“ und „Terrorismus“ in Verbindung. Ist die künstliche Intelligenz islamophob?

Ein solches Urteil griffe gewiss zu kurz. Computer können schon allein deshalb keine Islamhasser sein, weil es ihnen an einem Bewusstsein fehlt. Aber sie reproduzieren eben auch Vorurteile ihrer Entwickler. Und das sind überwiegend weiße Männer aus der amerikanischen Mittel- und Oberschicht. Insofern ist KI auch ein Spiegel der Gesellschaft.

„Orientalistische Machtstrukturen“

Die Bloggerin Francesca Scapolo kritisierte in einem Essay für die Plattform „Medium“, „westliche Algorithmen“ würden „orientalistische Machtstrukturen perpetuieren“.

Die romantisierte Darstellung des Vorderen und Mittleren Orients, die als Legitimationsfolie für die kolonialen und imperialistischen Bestrebungen diente, und die daraus resultierenden Terrorismus-Diskurse würden durch Sprachmodelle wie GPT-3 zementiert. Wo sich die Sprach-KI einerseits am Kanon westlicher Kultur bedient, ist sie andererseits auf die Handarbeit von Menschen angewiesen, deren Kultur sie weitgehend ausblendet. So wurde bekannt, dass Open AI Clickworker in Kenia anheuerte, die für 2 Dollar die Stunde sexistische und gewaltverherrlichende Texte labeln. Dieses Outsourcing zeigt einmal mehr, wie die Plattformökonomie Menschen im Globalen Süden für ihre datenhungrigen Maschinen ausbeutet.

Die kulturalistische Sichtweise setzt sich auch an anderer Stelle fort – zum Beispiel bei dem Bildgenerator DALL-E. Das Tool, das ebenfalls von Open AI stammt, verwandelt im Handumdrehen Texte in Bilder. Das Ölgemälde über Amerikas Krieg gegen den Terror zum Beispiel, welches die Bild-KI entwarf, steht in der Tradition europäischer Maler und erinnert in seiner düsteren Bildersprache an Caspar David Friedrich.

Kunstkritiker wenden ein, dass der Bildgenerator eurozentrisch und vergangenheitsorientiert sei und ästhetische Ideale anderer Weltregionen ausblende – wobei die Vergangenheitsfixierung auch in der Funktionsweise von KI-Systemen begründet liegt, deren Algorithmen aus „historischen“ Daten lernen. Dieser Modus Operandi wirft zum einen die Frage auf, welche ästhetischen Kriterien man künftig an Originalität anlegt, zum anderen, ob durch ein „Datawashing“ koloniale Betrachtungsweisen neu beglaubigt werden. Wie „weiß“ sind computergenerierte Werke?

Dekolonialisierung von KI

Zwar gibt es für DALL-E eigene Tools, mit denen sich beispielsweise japanische Drucke imitieren lassen. Aber das zugrundeliegende Weltbild bleibt – es lässt sich nicht mit einem Mausklick wegretuschieren. Der KI-Forscher Yilun Du brachte es auf den Punkt: „Man kann ein Modell nicht weniger westlich feintunen, wenn der Datensatz zum größten Teil westlich ist.“ Die Rufe nach einer Dekolonialisierung von KI werden daher lauter. In Afrika laufen Projekte im Bereich des Natural Language Processing (NLP), wo es nicht nur darum geht, Sprachmodelle auf eine breitere Datengrundlage zu stellen, sondern auch darum, afrikanische Erzählkunst zu berücksichtigen.

Die westliche Kultur fängt jedoch gerade erst an, die vielstimmige afrikanische Literatur zu hören – die Vergabe des Literaturnobelpreises 2021 an den tansanischen Schriftsteller Abdulrazak Gurnah liefert davon Zeugnis. Wie also lässt sich mehr Diversität herstellen?

Ein erster Schritt wäre es, den literarischen Kanon zu erweitern. Der BookCorpus, eine Sammlung von Tausenden Büchern, mit denen alle einflussreichen Sprachmodelle trainiert werden (neben GPT unter anderen auch Goo­gles BERT), enthält vor allem Werke, die in der westlichen Kultur rezipiert werden. Dabei machen es die Fortschritte automatisierter Sprachsoftware überhaupt erst möglich, auch solche Werke zu erschließen, deren Übersetzung bislang aus wirtschaftlichen Gründen nicht realisiert werden konnte – etwa aus dem Indonesischen, wo es viele hierzulande unbekannte Literaten gibt. Und genau darum geht es: Wer erzählt die Geschichten von morgen? Menschen aus aller Welt? Oder Maschinen aus den USA?

Einmal zahlen
.

Fehler auf taz.de entdeckt?

Wir freuen uns über eine Mail an fehlerhinweis@taz.de!

Inhaltliches Feedback?

Gerne als Leser*innenkommentar unter dem Text auf taz.de oder über das Kontaktformular.

Ein Kopfhörer - das Symbol der Podcasts der taz

Entdecke die Podcasts der taz. Unabhängige Stimmen, Themen und Meinungen – nicht nur fürs linke Ohr.

Feedback willkommen! Wir freuen uns auf deine Gedanken, Eindrücke und Anregungen.

Schreib uns: podcast@taz.de

Bitte registrieren Sie sich und halten Sie sich an unsere Netiquette.

Haben Sie Probleme beim Kommentieren oder Registrieren?

Dann mailen Sie uns bitte an kommune@taz.de.