piwik no script img

Ideologie und künstliche IntelligenzGeschichten von morgen

Auch wenn sie tolle Texte schreiben, KIs haben ein Problem: Sie werden vorwiegend mit westlichen Quellen trainiert. Mehr Diversität ist nötig.

So antwortet eine KI auf die Anforderung „ein Astronaut reitet ein Pferd“ (Ausschnitt) Foto: OpenAI/afp

Die Sprach-KI ChatGPT hat einen riesigen Hype ausgelöst. Das automatisierte Dialogsystem, das von der US-Software­schmiede Open AI entwickelt wurde, bearbeitet auf Knopfdruck Anfragen. Man gibt einfach eine Frage oder Anweisung in das Chat­fenster ein, Sekunden später schickt die KI einen druckreifen Text. Bewerbungen, Drehbücher, Gedichte – das Sprachmodell beherrscht alle Textgattungen. Sogar beim Programmieren kann das Tool helfen: Es schreibt auch Codes.

Empfohlener externer Inhalt

Wir würden Ihnen hier gerne einen externen Inhalt zeigen. Sie entscheiden, ob sie dieses Element auch sehen wollen:

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen übermittelt werden. Mehr dazu in unserer Datenschutzerklärung

Die KI, die mit einer riesigen Textmenge aus verschiedenen Internetquellen trainiert wurde, errechnet auf Basis eines statistischen Modells eine Wahrscheinlichkeit für das Auftreten des nächsten Wortes. Die sprachliche Qualität der Texte ist beeindruckend – erschreckend beeindruckend sogar. Wie von Geisterhand schreibt der Bot Texte so sehr im Stile von Franz Kafka oder Ernest Hemingway, dass man meinen könnte, die Literaten hätten wiederauferstanden selbst in die Tasten gegriffen.

In der zuweilen sehr technisch geführten Diskussion wird jedoch ein Umstand oft außer Acht gelassen: Computerprogramme sind Artefakte und damit auch kulturell geprägt. KI-Systeme und Sprachmodelle im Besonderen werden von Menschen programmiert. Und die implementieren nicht nur mathematische, sondern auch soziale Werte. ChatGPT ist schon jetzt eine Storytelling-Maschine, die es mit der Diskursmacht von Disney oder Hollywood aufnehmen könnte. Die Frage, wie dieses Computersystem lernt, hat daher auch gesellschaftspolitische Relevanz.

Der Umgangston von BBC und Reddit

Schaut man sich das Vorgängermodell GPT-3 an, fällt auf, dass die KI mit überwiegend englischsprachigen Texten trainiert wurde. 60 Prozent der Trainingsdaten stammen aus dem Webarchiv des Common Crawl, einer kalifornischen Nichtregierungsorganisation, die nach eigenen Angaben 50 Milliarden Webseiten archiviert hat. Darunter sind seriöse Quellen wie die New York Times und BBC, aber auch weniger verlässliche wie das Online-Forum Reddit, eine Art Internet-Stammtisch, wo sich Nutzer auch mal Aktientipps geben oder Verschwörungstheorien diskutieren.

Schon allein mit dieser Quellenauswahl wird also ein bestimmtes Weltbild transportiert. Der Rest des Trainingsmaterials stammt unter anderem aus Büchersammlungen und Wikipedia. Das Online-Lexikon, mit dessen rund sechs Millionen englischsprachigen Artikeln auch ChatGPT gefüttert wurde, ist noch immer ein Club von weißen, englischsprachigen Männern, die überwiegend in christlich geprägten Ländern auf der Nordhalbkugel leben. Und diese Männer schreiben hauptsächlich für Männer und über Männer. Aktuell sind lediglich rund 17 Prozent der Biografien auf der deutschen Wikipedia jene weiblicher Personen.

GPT-3 beschreibt Frauen als unanständig, Männer aber sind „sympathisch“

Zwar macht Wikipedia nur einen kleinen Teil der Trainingsdaten aus (die Gewichtung bei GPT-3 lag bei 3 Prozent). Durch die Mechanik von Sprach-KIs wird dieser Gender Bias jedoch verstärkt.

Die zugrundeliegende Technik der Rekombinatorik sorgt nämlich dafür, dass manche Wortkombinationen in häufigerer Frequenz auftauchen und Stereotype förmlich aneinanderkleben. So haben Forscher der Entwick­lerorganisation Open AI in einer Studie herausgefunden, dass GPT-3 weibliche Pronomina mit tendenziell sexistischen Adjektiven wie „naughty“ (unanständig, verrucht) und „gor­geous“ (wunderschön) verknüpft, während Männern eher geschlechtsneutrale Eigenschaften wie „sympathisch“ oder „groß“ zugeschrieben werden. Vor diesem Hintergrund verwundert es nicht, dass das Sprachmodell auch bei den Weltreligionen stereotype Muster zeigt: So brachte GPT-3 den Islam mit Worten wie „gewaltsam“ und „Terrorismus“ in Verbindung. Ist die künstliche Intelligenz islamophob?

Ein solches Urteil griffe gewiss zu kurz. Computer können schon allein deshalb keine Islamhasser sein, weil es ihnen an einem Bewusstsein fehlt. Aber sie reproduzieren eben auch Vorurteile ihrer Entwickler. Und das sind überwiegend weiße Männer aus der amerikanischen Mittel- und Oberschicht. Insofern ist KI auch ein Spiegel der Gesellschaft.

„Orientalistische Machtstrukturen“

Die Bloggerin Francesca Scapolo kritisierte in einem Essay für die Plattform „Medium“, „westliche Algorithmen“ würden „orientalistische Machtstrukturen perpetuieren“.

Die romantisierte Darstellung des Vorderen und Mittleren Orients, die als Legitimationsfolie für die kolonialen und imperialistischen Bestrebungen diente, und die daraus resultierenden Terrorismus-Diskurse würden durch Sprachmodelle wie GPT-3 zementiert. Wo sich die Sprach-KI einerseits am Kanon westlicher Kultur bedient, ist sie andererseits auf die Handarbeit von Menschen angewiesen, deren Kultur sie weitgehend ausblendet. So wurde bekannt, dass Open AI Clickworker in Kenia anheuerte, die für 2 Dollar die Stunde sexistische und gewaltverherrlichende Texte labeln. Dieses Outsourcing zeigt einmal mehr, wie die Plattformökonomie Menschen im Globalen Süden für ihre datenhungrigen Maschinen ausbeutet.

Die kulturalistische Sichtweise setzt sich auch an anderer Stelle fort – zum Beispiel bei dem Bildgenerator DALL-E. Das Tool, das ebenfalls von Open AI stammt, verwandelt im Handumdrehen Texte in Bilder. Das Ölgemälde über Amerikas Krieg gegen den Terror zum Beispiel, welches die Bild-KI entwarf, steht in der Tradition europäischer Maler und erinnert in seiner düsteren Bildersprache an Caspar David Friedrich.

Kunstkritiker wenden ein, dass der Bildgenerator eurozentrisch und vergangenheitsorientiert sei und ästhetische Ideale anderer Weltregionen ausblende – wobei die Vergangenheitsfixierung auch in der Funktionsweise von KI-Systemen begründet liegt, deren Algorithmen aus „historischen“ Daten lernen. Dieser Modus Operandi wirft zum einen die Frage auf, welche ästhetischen Kriterien man künftig an Originalität anlegt, zum anderen, ob durch ein „Datawashing“ koloniale Betrachtungsweisen neu beglaubigt werden. Wie „weiß“ sind computergenerierte Werke?

Dekolonialisierung von KI

Zwar gibt es für DALL-E eigene Tools, mit denen sich beispielsweise japanische Drucke imitieren lassen. Aber das zugrundeliegende Weltbild bleibt – es lässt sich nicht mit einem Mausklick wegretuschieren. Der KI-Forscher Yilun Du brachte es auf den Punkt: „Man kann ein Modell nicht weniger westlich feintunen, wenn der Datensatz zum größten Teil westlich ist.“ Die Rufe nach einer Dekolonialisierung von KI werden daher lauter. In Afrika laufen Projekte im Bereich des Natural Language Processing (NLP), wo es nicht nur darum geht, Sprachmodelle auf eine breitere Datengrundlage zu stellen, sondern auch darum, afrikanische Erzählkunst zu berücksichtigen.

Die westliche Kultur fängt jedoch gerade erst an, die vielstimmige afrikanische Literatur zu hören – die Vergabe des Literaturnobelpreises 2021 an den tansanischen Schriftsteller Abdulrazak Gurnah liefert davon Zeugnis. Wie also lässt sich mehr Diversität herstellen?

Ein erster Schritt wäre es, den literarischen Kanon zu erweitern. Der BookCorpus, eine Sammlung von Tausenden Büchern, mit denen alle einflussreichen Sprachmodelle trainiert werden (neben GPT unter anderen auch Goo­gles BERT), enthält vor allem Werke, die in der westlichen Kultur rezipiert werden. Dabei machen es die Fortschritte automatisierter Sprachsoftware überhaupt erst möglich, auch solche Werke zu erschließen, deren Übersetzung bislang aus wirtschaftlichen Gründen nicht realisiert werden konnte – etwa aus dem Indonesischen, wo es viele hierzulande unbekannte Literaten gibt. Und genau darum geht es: Wer erzählt die Geschichten von morgen? Menschen aus aller Welt? Oder Maschinen aus den USA?

taz lesen kann jede:r

Als Genossenschaft gehören wir unseren Leser:innen. Und unser Journalismus ist nicht nur 100 % konzernfrei, sondern auch kostenfrei zugänglich. Texte, die es nicht allen recht machen und Stimmen, die man woanders nicht hört – immer aus Überzeugung und hier auf taz.de ohne Paywall. Unsere Leser:innen müssen nichts bezahlen, wissen aber, dass guter, kritischer Journalismus nicht aus dem Nichts entsteht. Dafür sind wir sehr dankbar. Damit wir auch morgen noch unseren Journalismus machen können, brauchen wir mehr Unterstützung. Unser nächstes Ziel: 40.000 – und mit Ihrer Beteiligung können wir es schaffen. Setzen Sie ein Zeichen für die taz und für die Zukunft unseres Journalismus. Mit nur 5,- Euro sind Sie dabei! Jetzt unterstützen

Mehr zum Thema

5 Kommentare

 / 
  • Mal davon ab - daß es bekanntlich KI nicht gibt. Hilft hier das steinalte Brevier von Kurt Kusenberg “Lob der Faulheit“ in die Spur.



    zB “Weil der Mensch zu faul war - zu 🚣‍♀️



    Erfand er das Dampfschiff!“

    kurz - Wer gähnend langweilige Elaborate aus sog Schreibschulen schätzt. Ist da sicher gut bedient!



    In der Musik ist - bei allem Inovationspotential - ähnliches zu konstatieren: “Als wenn’s Kacheln scheißen!“ befand schon Wolfgang Amadeus.



    &



    Harry Rowohlt befand sojet binsenhaftes mal entre nous als Übersetzer zum Machwerk “Naked“



    rezensionen.litera...er_daec_12569.html - irgendwo in den Briefen - zum Wegwerfen zu schade -



    Also. - Gebt ruhig das eigene Hirn an der Garderobe ab. Selbst zum Sparring nicht ungefährlich. Der auch in der taz zu konstatierende Worthülsensalat ist doch längst as usual. Immer nur Eintopf? Grrrr 😖 👿 🙀🥳



    „Man muss noch Chaos in sich haben,



    um einen tanzenden Stern gebären zu können.“

    Na Mahlzeit

  • Man kann natürlich erst mal daran herum meckern.



    Umgekehrt steht natürlich jedem frei, diese KI zu boykotieren.



    Oder einfach selbst eine zu erfinden.



    Woher kommt nur diese absurde Erwartungshaltung, dass andere ihr mühsam geschaffenes Werk ganz neutral gestalten? Das ist doch des schaffenden Freiheit!



    Das ist kein öffentliches Gut...

    • @mensch meier:

      Das Problem an KIs ist nunmal "Shit in Shit out". Und weil jemand mehr Diversität haben will, wird das Internet dadurch nicht besser in der Hinsicht.

      Und die Mengen an Inhalten kuratieren, wie manche es gerne hätten, ist für Menschen alleine ein Ding der Unmöglichkeit. KIs wiederum verstehen diese nicht, können dafür also auch nur begrenzt eingesetzt werden.

  • Man kann es eher verblüffend finden, wie schnell man da wie weit gekommen ist. Maschinelle Übersetzung z.B. ist ne ganz schön alte Disziplin, tatsächlich fast so alt wie die Informatik selbst, aber man kam über Jahrzehnte abgesehen vom Englischen kaum über das Groberschließen von zwei, drei Weltsprachen hinaus und im Ansatz vielleicht dem Deutschen, dank Markt. Das gilt genauso für die Autokorrektur, und erst recht für die Sprachsynthese. Aber das sind die Hausaufgaben, ist eine Frage von Investment, Profit und Zeit. Auch des Personals, also von Menschen in den technischen Bereichen, die über entspr. Kenntnisse (etwa kleinerer Sprachen, Kulturen) überhaupt verfügen, aber davon gibt es aber immer mehr. An Ideologie wird es schließlich auch nicht scheitern sondern an Logik. Erschließbar ist all das, was einer bestimmten Logik schon genügt und das geht noch viel tiefer als an Fragen der Programmierung. Nämlich an das ganze Fundament, die Statistik und Mathematik, die Metrik überhaupt. Es gibt Kulturen, die kommen weithin ohne Begriffe des Grundrechnens aus, auch unser Verständnis der binären Polarität (einschließlich Geschlechter) ist in seiner Stellung keinesfalls universell. Es gibt Sprachen, die kennen nicht mal Rekursion. Ich bezweifle dass man auch mit Quantencomputern einmal alle Geschichten wird (wieder)erzählen können, das kann man nur, wo man einer bestimmten Logik schon folgt und das ist, wie auch immer sie es drehen, notwendig die des Westens und seiner analytischen Technowissenschaft. Amerikanische Maschinen. Das muss nicht schlecht sein und alles können sie uns zum Glück auch nicht übersetzen, mundgerecht vorkauen. Schlecht wär's, wenn es unsererseits bei der Gemütlichkeit bleibt, es (nur) noch von ihnen zu erwarten.

  • Das Trainieren von solchen KIs benötigt Unmengen an Daten, Rechenleistung und damit Strom als auch Arbeitskraft. Da geht es um hohe Millionenbeträge.

    Solange das so bleibt, liegt das an den Firmen, die diese KIs erschaffen. Und die sind insofern nur divers, dass Baidu und Tencent sicherlich andere Vorgaben als OpenAI mit ChatGPT haben. Die eigene Kultur bevorzugen werden sie dennoch alle, weil ganz einfach diese KIs für diesen Markt gemacht sind.