Ideologie und künstliche Intelligenz: Geschichten von morgen
Auch wenn sie tolle Texte schreiben, KIs haben ein Problem: Sie werden vorwiegend mit westlichen Quellen trainiert. Mehr Diversität ist nötig.
![Illustration: Ein Mensch in Raumfahrtanzug sitzt auf einem gescheckten Pferd und reitet. Im Hintergrund das Weltall. Illustration: Ein Mensch in Raumfahrtanzug sitzt auf einem gescheckten Pferd und reitet. Im Hintergrund das Weltall.](https://taz.de/picture/6054140/14/32025732-1.jpeg)
Die Sprach-KI ChatGPT hat einen riesigen Hype ausgelöst. Das automatisierte Dialogsystem, das von der US-Softwareschmiede Open AI entwickelt wurde, bearbeitet auf Knopfdruck Anfragen. Man gibt einfach eine Frage oder Anweisung in das Chatfenster ein, Sekunden später schickt die KI einen druckreifen Text. Bewerbungen, Drehbücher, Gedichte – das Sprachmodell beherrscht alle Textgattungen. Sogar beim Programmieren kann das Tool helfen: Es schreibt auch Codes.
Empfohlener externer Inhalt
Die KI, die mit einer riesigen Textmenge aus verschiedenen Internetquellen trainiert wurde, errechnet auf Basis eines statistischen Modells eine Wahrscheinlichkeit für das Auftreten des nächsten Wortes. Die sprachliche Qualität der Texte ist beeindruckend – erschreckend beeindruckend sogar. Wie von Geisterhand schreibt der Bot Texte so sehr im Stile von Franz Kafka oder Ernest Hemingway, dass man meinen könnte, die Literaten hätten wiederauferstanden selbst in die Tasten gegriffen.
In der zuweilen sehr technisch geführten Diskussion wird jedoch ein Umstand oft außer Acht gelassen: Computerprogramme sind Artefakte und damit auch kulturell geprägt. KI-Systeme und Sprachmodelle im Besonderen werden von Menschen programmiert. Und die implementieren nicht nur mathematische, sondern auch soziale Werte. ChatGPT ist schon jetzt eine Storytelling-Maschine, die es mit der Diskursmacht von Disney oder Hollywood aufnehmen könnte. Die Frage, wie dieses Computersystem lernt, hat daher auch gesellschaftspolitische Relevanz.
Der Umgangston von BBC und Reddit
Schaut man sich das Vorgängermodell GPT-3 an, fällt auf, dass die KI mit überwiegend englischsprachigen Texten trainiert wurde. 60 Prozent der Trainingsdaten stammen aus dem Webarchiv des Common Crawl, einer kalifornischen Nichtregierungsorganisation, die nach eigenen Angaben 50 Milliarden Webseiten archiviert hat. Darunter sind seriöse Quellen wie die New York Times und BBC, aber auch weniger verlässliche wie das Online-Forum Reddit, eine Art Internet-Stammtisch, wo sich Nutzer auch mal Aktientipps geben oder Verschwörungstheorien diskutieren.
Schon allein mit dieser Quellenauswahl wird also ein bestimmtes Weltbild transportiert. Der Rest des Trainingsmaterials stammt unter anderem aus Büchersammlungen und Wikipedia. Das Online-Lexikon, mit dessen rund sechs Millionen englischsprachigen Artikeln auch ChatGPT gefüttert wurde, ist noch immer ein Club von weißen, englischsprachigen Männern, die überwiegend in christlich geprägten Ländern auf der Nordhalbkugel leben. Und diese Männer schreiben hauptsächlich für Männer und über Männer. Aktuell sind lediglich rund 17 Prozent der Biografien auf der deutschen Wikipedia jene weiblicher Personen.
Zwar macht Wikipedia nur einen kleinen Teil der Trainingsdaten aus (die Gewichtung bei GPT-3 lag bei 3 Prozent). Durch die Mechanik von Sprach-KIs wird dieser Gender Bias jedoch verstärkt.
Die zugrundeliegende Technik der Rekombinatorik sorgt nämlich dafür, dass manche Wortkombinationen in häufigerer Frequenz auftauchen und Stereotype förmlich aneinanderkleben. So haben Forscher der Entwicklerorganisation Open AI in einer Studie herausgefunden, dass GPT-3 weibliche Pronomina mit tendenziell sexistischen Adjektiven wie „naughty“ (unanständig, verrucht) und „gorgeous“ (wunderschön) verknüpft, während Männern eher geschlechtsneutrale Eigenschaften wie „sympathisch“ oder „groß“ zugeschrieben werden. Vor diesem Hintergrund verwundert es nicht, dass das Sprachmodell auch bei den Weltreligionen stereotype Muster zeigt: So brachte GPT-3 den Islam mit Worten wie „gewaltsam“ und „Terrorismus“ in Verbindung. Ist die künstliche Intelligenz islamophob?
Ein solches Urteil griffe gewiss zu kurz. Computer können schon allein deshalb keine Islamhasser sein, weil es ihnen an einem Bewusstsein fehlt. Aber sie reproduzieren eben auch Vorurteile ihrer Entwickler. Und das sind überwiegend weiße Männer aus der amerikanischen Mittel- und Oberschicht. Insofern ist KI auch ein Spiegel der Gesellschaft.
„Orientalistische Machtstrukturen“
Die Bloggerin Francesca Scapolo kritisierte in einem Essay für die Plattform „Medium“, „westliche Algorithmen“ würden „orientalistische Machtstrukturen perpetuieren“.
Die romantisierte Darstellung des Vorderen und Mittleren Orients, die als Legitimationsfolie für die kolonialen und imperialistischen Bestrebungen diente, und die daraus resultierenden Terrorismus-Diskurse würden durch Sprachmodelle wie GPT-3 zementiert. Wo sich die Sprach-KI einerseits am Kanon westlicher Kultur bedient, ist sie andererseits auf die Handarbeit von Menschen angewiesen, deren Kultur sie weitgehend ausblendet. So wurde bekannt, dass Open AI Clickworker in Kenia anheuerte, die für 2 Dollar die Stunde sexistische und gewaltverherrlichende Texte labeln. Dieses Outsourcing zeigt einmal mehr, wie die Plattformökonomie Menschen im Globalen Süden für ihre datenhungrigen Maschinen ausbeutet.
Die kulturalistische Sichtweise setzt sich auch an anderer Stelle fort – zum Beispiel bei dem Bildgenerator DALL-E. Das Tool, das ebenfalls von Open AI stammt, verwandelt im Handumdrehen Texte in Bilder. Das Ölgemälde über Amerikas Krieg gegen den Terror zum Beispiel, welches die Bild-KI entwarf, steht in der Tradition europäischer Maler und erinnert in seiner düsteren Bildersprache an Caspar David Friedrich.
Kunstkritiker wenden ein, dass der Bildgenerator eurozentrisch und vergangenheitsorientiert sei und ästhetische Ideale anderer Weltregionen ausblende – wobei die Vergangenheitsfixierung auch in der Funktionsweise von KI-Systemen begründet liegt, deren Algorithmen aus „historischen“ Daten lernen. Dieser Modus Operandi wirft zum einen die Frage auf, welche ästhetischen Kriterien man künftig an Originalität anlegt, zum anderen, ob durch ein „Datawashing“ koloniale Betrachtungsweisen neu beglaubigt werden. Wie „weiß“ sind computergenerierte Werke?
Dekolonialisierung von KI
Zwar gibt es für DALL-E eigene Tools, mit denen sich beispielsweise japanische Drucke imitieren lassen. Aber das zugrundeliegende Weltbild bleibt – es lässt sich nicht mit einem Mausklick wegretuschieren. Der KI-Forscher Yilun Du brachte es auf den Punkt: „Man kann ein Modell nicht weniger westlich feintunen, wenn der Datensatz zum größten Teil westlich ist.“ Die Rufe nach einer Dekolonialisierung von KI werden daher lauter. In Afrika laufen Projekte im Bereich des Natural Language Processing (NLP), wo es nicht nur darum geht, Sprachmodelle auf eine breitere Datengrundlage zu stellen, sondern auch darum, afrikanische Erzählkunst zu berücksichtigen.
Die westliche Kultur fängt jedoch gerade erst an, die vielstimmige afrikanische Literatur zu hören – die Vergabe des Literaturnobelpreises 2021 an den tansanischen Schriftsteller Abdulrazak Gurnah liefert davon Zeugnis. Wie also lässt sich mehr Diversität herstellen?
Ein erster Schritt wäre es, den literarischen Kanon zu erweitern. Der BookCorpus, eine Sammlung von Tausenden Büchern, mit denen alle einflussreichen Sprachmodelle trainiert werden (neben GPT unter anderen auch Googles BERT), enthält vor allem Werke, die in der westlichen Kultur rezipiert werden. Dabei machen es die Fortschritte automatisierter Sprachsoftware überhaupt erst möglich, auch solche Werke zu erschließen, deren Übersetzung bislang aus wirtschaftlichen Gründen nicht realisiert werden konnte – etwa aus dem Indonesischen, wo es viele hierzulande unbekannte Literaten gibt. Und genau darum geht es: Wer erzählt die Geschichten von morgen? Menschen aus aller Welt? Oder Maschinen aus den USA?
40.000 mal Danke!
40.000 Menschen beteiligen sich bei taz zahl ich – weil unabhängiger, kritischer Journalismus in diesen Zeiten gebraucht wird. Weil es die taz braucht. Dafür möchten wir uns herzlich bedanken! Ihre Solidarität sorgt dafür, dass taz.de für alle frei zugänglich bleibt. Denn wir verstehen Journalismus nicht nur als Ware, sondern als öffentliches Gut. Was uns besonders macht? Sie, unsere Leser*innen. Sie wissen: Zahlen muss niemand, aber guter Journalismus hat seinen Preis. Und immer mehr machen mit und entscheiden sich für eine freiwillige Unterstützung der taz! Dieser Schub trägt uns gemeinsam in die Zukunft. Wir suchen auch weiterhin Unterstützung: suchen wir auch weiterhin Ihre Unterstützung. Setzen auch Sie jetzt ein Zeichen für kritischen Journalismus – schon mit 5 Euro im Monat! Jetzt unterstützen
meistkommentiert
Tabubruch der CDU
Einst eine Partei mit Werten
Trump und die Ukraine
Europa hat die Ukraine verraten
Social-Media-Star im Bundestagswahlkampf
Wie ein Phoenix aus der roten Asche
Krieg und Rüstung
Klingelnde Kassen
Gerhart Baum ist tot
Die FDP verliert ihr sozialliberales Gewissen
Mitarbeiter des Monats
Wenn’s gut werden muss