piwik no script img

Dekolonialisierung von KIDie Bots sollen indigene Sprachen lernen

Chile hat ein KI-Sprachmodell entwickelt, das lokale Sprachen und Kulturen berücksichtigt. Doch Big Tech bedroht die technologische Unabhängigkeit.

Indigene aus Chile bei Versammlung in Bolivien Foto: Pilar Olivares/Reuters

Wer ChatGPT den Auftrag erteilt, ein realistisches Bild zu erstellen, wie ein Mensch Wasser bekommt, erhält häufig Bilder von einem Wasserhahn, zum Beispiel in der Küche oder vor dem Haus. Dass dies die Realität auf der Welt nur bedingt widerspiegelt, ist den meisten vermutlich gar nicht klar. Rund 700 Millionen Menschen auf der Welt haben keinen Zugang zu sauberem Trinkwasser und müssen täglich länger als 30 Minuten zu einer Wasserstelle laufen. Das Bild, das die künstliche Intelligenz (KI) von der Wirklichkeit zeichnet, ist also ein sehr verzerrtes.

Forscher der University of Michigan haben in einer Studie aufgezeigt, dass der Alltag nicht westlicher Lebensweisen in KI-Bildgeneratoren unterrepräsentiert ist. Gibt man etwa Begriffe wie „Toilettenpapier“, „Lichtquelle“ oder „Kühlschrank“ ein, werden vor allem die Standards in westlichen Haushalten dargestellt. Dass aber auch Lehmkeller als Kühlschränke fungieren können und Grasbüschel als Toilettenpapier, findet in den KI-generierten Antworten kaum Anklang.

Der Grund: Es gibt in den Trainingsdaten schlicht viel mehr Abbildungen von schicken Bädern und Designerlampen als von Plumpsklos, sodass die KI-Modelle, die mit Wahrscheinlichkeiten operieren, davon ausgehen, dass dies die (statistische) Norm ist. So wird über automatische Feedbackschleifen eine einseitige Sicht auf die Welt gezeigt – und der Wohlstand im Westen als Standard definiert.

Schon seit einiger Zeit gibt es daher Kritik an der Westzentrierung von KI-Modellen – von Datenkolonialismus ist gar die Rede. In der Kritik stehen nicht nur große Tech-Konzerne, die Arbeitsschritte in den Globalen Süden outsourcen, wo Klickarbeiter für ein paar Dollar am Tag Daten labeln, sondern auch die Machtstrukturen, die mit dem Export von „Wissenssystemen“ einhergehen: Sprachmodelle wie ChatGPT werden vor allem mit Quellen aus dem Westen wie etwa Wikipedia in englischer Sprache trainiert und sind entsprechend limitiert; der Literaturkanon der arabischen oder koreanischen Kultur spielt in den Trainingsdaten kaum eine Rolle. Unter dem Stichwort „Decolonizing AI“ fordern postkoloniale Technologiekritiker daher, die Dominanz der Datenkonzerne zu brechen und KI-Systeme auf eine neue, diverse Datengrundlage zu stellen.

Genug vom argentischen Akzent

Einen Schritt in diese Richtung macht nun Chile. Dort hat das Chilean National Center for Artificial Intelligence (CENIA) ein eigenes Sprachmodell entwickelt, das einen regionalen Fokus haben und lokale Sprachen und Kulturen stärker nuancieren soll. Das Open-Source-Modell Latam-GPT, das mit 50 Milliarden Parametern die Leistungsstärke von GPT-3 besitzt, wurde mit einem Datensatz von rund 2,6 Millionen Dokumenten gefüttert, unter anderem mit Quellen aus Brasilien, Mexiko, Kolumbien und Argentinien. Auch kleinere Länder wie Nicaragua waren in den Datensätzen vertreten. An der Entwicklung waren insgesamt 33 Institutionen aus Südamerika und der Karibik beteiligt.

Latam-GPT soll Lateinamerika technologisch unabhängig von amerikanischen Tech-Playern machen – und die kulturelle Identität des Kontinents stärken. Schon heute ärgern sich viele Chilenen über den in ihren Ohren furchtbar klingenden argentinischen Akzent von ChatGPT, der standardmäßig auf ihren Smartphones eingestellt ist. Chiles Präsident Gabriel Boric feierte die Entwicklung als Meilenstein: „Die digitale Zukunft muss auch unsere Sprache sprechen, mit unseren Stimmen und für unser Volk.“

Ein neues ChatGPT soll aber nicht entstehen. „Wir wollen nicht mit OpenAI, DeepSeek oder Google konkurrieren“, erklärte Álvaro Soto, der Forschungsdirektor des Cenia, gegenüber dem Magazin Wired. „Wir möchten ein Modell, das speziell auf Lateinamerika und die Karibik ausgerichtet ist und sich der kulturellen Anforderungen und Herausforderungen bewusst ist, die dies mit sich bringt – wie etwa das Verständnis unterschiedlicher Dialekte, der Geschichte der Region und einzigartiger kultureller Aspekte.“ So ließe sich das Open-Source-Modell etwa für das Bildungssystem in Kolumbien oder den Gesundheitssektor in Brasilien adaptieren. Perspektivisch sollen auch indigene Sprachen wie Mapuche, Rapanui und Guaraní sowie Dialektvarianten aus der Karibik in den KI-Chatbot einprogrammiert werden.

Latam-GPT steht für eine Tendenz zur Regionalisierung von KI. So haben Schweizer Forscher kürzlich ein offenes, mehrsprachiges Sprachmodell namens Apertus präsentiert, das unter anderem Schweizerdeutsch und Rätoromanisch kann. Die Besonderheit: 40 Prozent der Daten sind nicht englischsprachig. Mit Sea-Lion in Südostasien und UlizaLlama in Afrika gibt es weitere Open-Source-KIs, die mit regionalen Sprachen trainiert wurden. Auch in Indien existiert mittlerweile ein Sprachmodell (BharatGPT), das lokale Dialekte beherrscht und Dorflehrer bei der Unterrichtsvorbereitung unterstützt. In der früheren britischen Kolonie ist das Thema digitaler Kolonialismus ähnlich wie in Lateinamerika politisch brisant.

Erst Konquistadore, dann Big Tech

Doch Chiles Vision von technologischer Unabhängigkeit hat einen Schönheitsfehler. Das Sprachmodell basiert auf der Architektur von Metas Open-Source-Modell Llama 3 – und wird zudem von Amazons Cloud-Sparte AWS unterstützt. Ist das nun Entwicklungshilfe? Oder doch der Versuch, Daten für die eigene KI abzuzapfen?

„Hyperscaler“ wie Google, Amazon und Meta errichten in Chile ein Rechenzentrum nach dem anderen, um ihre datenhungrigen KIs zu trainieren, und verbrauchen dabei – neben immensen Strommengen – auch massenhaft Wasser, um die heiß laufenden Server zu kühlen. Und das in einer der trockensten Gegenden der Welt. Schon seit Jahren gibt es daher Konflikte mit der indigenen Bevölkerung um die knappen Wasservorräte; Umweltschützer laufen Sturm gegen die Projekte. Im vergangenen Jahr verhängte ein chilenisches Gericht einen Baustopp für ein geplantes Google-Rechenzentrum in Cerrillos, nachdem bekannt wurde, dass die Anlage pro Tag 7,6 Millionen Liter Trinkwasser verschlingen soll.

Der digitale Kapitalismus befeuert jenen Extraktivismus, der den Kontinent in der Vergangenheit immer wieder zum Rohstofflager machte: Erst kamen die Konquistadoren und plünderten Edelmetalle. Jetzt kommt Big Tech und beutet die Rohstoffe aus. KI hat einen gewaltigen ökologischen Fußabdruck.

Latam-GPT, das an das Rechenzentrum der Universidad de Tarapacá in der staubtrockenen Atacama-Wüste angeschlossen ist, braucht am Ende selbst Wasser, um aufzuzeigen, dass es auch Wassernutzung jenseits von verchromten Wasserhähnen gibt – und ein Bewusstsein für die kostbare Ressource zu schaffen.

Gemeinsam für freie Presse

Als Genossenschaft gehören wir unseren Leser:innen. Und unser Journalismus ist nicht nur 100 % konzernfrei, sondern auch kostenfrei zugänglich. Alle Artikel stellen wir frei zur Verfügung, ohne Paywall. Gerade in diesen Zeiten müssen Einordnungen und Informationen allen zugänglich sein. Unsere Leser:innen müssen nichts bezahlen, wissen aber, dass kritischer, unabhängiger Journalismus nicht aus dem Nichts entsteht. Dafür sind wir sehr dankbar. Damit wir auch morgen noch unseren Journalismus machen können, brauchen wir mehr Unterstützung. Unser nächstes Ziel: 50.000 – und mit Ihrer Beteiligung können wir es schaffen. Setzen Sie ein Zeichen für die taz und für die Zukunft unseres Journalismus. Mit nur 5,- Euro sind Sie dabei! Jetzt unterstützen

Mehr zum Thema

0 Kommentare