Voice Engine von OpenAI weckt Ängste: Künstlich Stimmen imitieren

6919598 5999056

Voice Engine von OpenAI weckt Ängste: Künstlich Stimmen imitieren

OpenAI stellt ein neues Programm vor: Mit Voice Engine lassen sich Stimmen imitieren. Im Superwahljahr verstärkt das Ängste vor Manipulation.

2.4.2024 16:23 Uhr

Auch als Donald Trump kann man sich am Telefon ausgeben, dank Voice Engine Foto: Toru Hanai/reuters

Von Martin Seng

Im März 2022 gab Präsident Selenskyj die Ukraine auf und kapitulierte vor Russland. Im November 2023 erklärte Kanzler Olaf Scholz, er werde die AfD verbieten. Und im Januar dieses Jahres rief US-Präsident Joe Biden seine Wähler:innen selbst an und bat sie, nicht zu den Vorwahlen zu gehen. Das alles ist so natürlich nie passiert. Und doch ist es Teil unserer politischen Wirklichkeit. „Deepfakes“, die Erstellung von gefälschten Videos durch künstliche Intelligenz, sind im in den letzten Jahren zu einem Phänomen geworden.



In Fake Videos unterhalten sich Joe Biden, Donald Trump und Barack Obama über Chipssorten oder Videospiele, beleidigen einander und spielen UNO

Spätestens seit 2019 wird vermehrt über die Gefahren der Täuschungen berichtet und vor ihnen gewarnt. Auch in einem Superwahljahr wie diesem werden Deepfakes als Gefahr wahrgenommen. Sie sind ein einfaches und niedrigschwelliges Mittel, um die Europawahl und insbesondere die US-Präsidentschaftswahl zu beeinflussen. Ausgerechnet jetzt stellt eines der größten KI-Unternehmen eine neue Software vor, mit der Stimmen so leicht zu imitieren sind wie nie zuvor.

Mit dem Chatbot ChatGPT hat sich das US-Unternehmen OpenAI als Marktführer bei künstlicher Intelligenz etabliert. Der Chatbot kann mit den Nutzer:innen Gespräche führen, Fragen beantworten und mithilfe einer simplen Aufgabenstellung ganze Aufsätze schreiben. Am Freitag hat OpenAI nun erstmals die Voice Engine vorgestellt. Mit der Software soll die perfekte Imitation einer Stimme möglich sein, auch auf mehreren Sprachen. Dafür braucht es nicht mehr als ein 15-sekündiges Beispiel und schon kann das Programm die Stimme in allen Lagen und mit allen Eigenheiten imitieren.

Personen des öffentlichen Lebens können sich kaum vor dem Missbrauch ihrer Stimme schützen. Selbst bei Privatpersonen reicht schon eine Sprachnachricht von Messengerdiensten aus, damit man ihre Stimme zweckentfremden kann. OpenAI weiß um die Gefahren, die das eigene Programm mit sich bringt. Auch deswegen hält das Unternehmen die Software noch zurück und will mit einer breiteren Freigabe vorsichtig sein.

Falscher Anruf von Joe Biden

Auch die Vereinten Nationen sehen Handlungsbedarf im Feld der künstlichen Intelligenz. Am 21. März verabschiedete die Organisation eine Resolution zur besseren Kontrolle von KI. Das Ziel sind „sichere und vertrauenswürdige Systeme der künstlichen Intelligenz“ und eine nachhaltige Entwicklung der Technik, ohne Missbrauch und Datenschutzverletzungen. Wie das umgesetzt wird, bleibt bei der rechtlich nicht bindenden Resolution abzuwarten.

Dabei stellen Deepfakes, ganz gleich ob mit dem Gesicht, der Stimme oder gleich beidem, einen massiven Eingriff in die Persönlichkeitsrechte dar. Durch die Fälschungen entsteht nicht nur die Gefahr der Erpressung und des Mobbings, sondern auch die einer massiven psychischen Belastung. In den letzten Jahren ist zudem die Deepfake-Pornografie regelrecht explodiert, sowohl mit bekannten Stars als auch privaten Gesichtern.

Inzwischen ist es ein Leichtes, Menschen Dinge sagen und tun zu lassen, die sie nie gesagt oder getan haben. In Teilen wirkt die Technik noch etwas holprig, doch ihre rasante Entwicklung wird auch diese Kanten glätten. Bei manchen Fakes, wie der Wahlbeeinflussung bei den US-Vorwahlen, braucht es nicht einmal ein Gesicht, sondern nur ein paar Sätze. Im US-Bundesstaat New Hampshire wurden demokratische Wähler:innen von einer gefälschten Stimme des Präsidenten angerufen. Der vermeintliche Joe Biden bat darum, nicht zu den Vorwahlen zu gehen.

Wer hinter der Manipulation steckt, ist noch immer unklar. Doch reicht ein solcher Fall bereits, um Unsicherheit zu schüren. Auch wenn die Voice Engine von OpenAI ein neues, noch schnelleres Kapitel in der Stimmenimitation eröffnet, ist das Problem längst auch Teil des Medienalltags. Es braucht deutlich mehr Medienkompetenz, speziell an Schulen, um Deepfakes erkennen und einordnen zu können.

Trump und Obama über Chipssorten

Seit einiger Zeit gibt es in den sozialen Medien, insbesondere auf Youtube und Tiktok, auch den Trend namens „AI Presidents“: In Fake Videos unterschiedlicher Länge unterhalten sich Joe Biden, Donald Trump und Barack Obama miteinander über verschiedene Themen. Mal machen sie rassistische Witze, bewerten verschiedene Chipssorten oder Videospiele, beleidigen sich gegenseitig oder spielen UNO gegeneinander.

Manchmal hört man in den Videos auch die Stimmen von George W. Bush oder Hillary Clinton. Während die Präsidenten meist nur mit ausgeschnittenen Bildern in leichter Bewegung dargestellt werden, sind ihre Stimmen täuschend echt.

Die humoristischen Videos wirken zwar kurzweilig, doch zeigen sie, wie einfach es mittlerweile ist, Stimmen und ganze Konversationen zu fälschen. Jeder kann Fälschungen erstellen und die Präsidenten und andere Prominente sagen lassen, was auch immer sie wollen – von extremistischen Aussagen bis hin zu Kapitulations- und Liebeserklärungen. Während es dafür vorher mehrere Minuten der Originalstimme brauchte, sind es dank Voice Engine nur noch wenige Sekunden.

taz lesen kann jede:r

Als Genossenschaft gehören wir unseren Leser:innen. Und unser Journalismus ist nicht nur 100 % konzernfrei, sondern auch kostenfrei zugänglich. Texte, die es nicht allen recht machen und Stimmen, die man woanders nicht hört – immer aus Überzeugung und hier auf taz.de ohne Paywall. Unsere Leser:innen müssen nichts bezahlen, wissen aber, dass guter, kritischer Journalismus nicht aus dem Nichts entsteht. Dafür sind wir sehr dankbar. Damit wir auch morgen noch unseren Journalismus machen können, brauchen wir mehr Unterstützung. Unser nächstes Ziel: 50.000 – und mit Ihrer Beteiligung können wir es schaffen. Setzen Sie ein Zeichen für die taz und für die Zukunft unseres Journalismus. Mit nur 5,- Euro sind Sie dabei! Jetzt unterstützen

Feedback Fehlerhinweis

10 Ausgaben für 10 Euro

Die Wochenzeitung mit taz-Blick

Unsere wochentaz bietet jeden Samstag Journalismus, der es nicht allen recht macht und Stimmen, die man woanders nicht hört. Jetzt zehn Wochen lang kennenlernen.

Jeden Samstag als gedruckte Zeitung frei Haus
Zusätzlich digitale Ausgabe inkl. Vorlesefunktion
Mit Zukunftsteil zu Klima, Wissen & Utopien
Mit Regionalteil „Stadtland“ für alles Wichtige zwischen Dorf und Metropole

Mehr erfahren

9 Kommentare

S
Suryo

03.04.2024, 15:25 Uhr

Yuval Harari hat völlig recht: die Fälschung von Personen muss genauso verboten werden wie die Fälschung von Geld.

Falschgeld kann jedes Finanzsystem kollabieren lassen.

Falschpersonen jede Demokratie.

Und genau das ist das Problem. Staaten wie Russland oder China müssen sich vor Falschpersonen nicht so fürchten wie Staaten mit Demokratie, d.h. mit Wahlkämpfen, einer Öffentlichkeit und freier Presse.
K
Krumbeere

03.04.2024, 08:23 Uhr

die Entwicklung bei KI geht rasend schnell. Die Geister, die wir riefen, werden wir nicht mehr los. Niemand kann mehr sicher sein, ob gesagtes auch wirklich gesagtes ist.

Alle Medien, die sich mit Informationen aus dem Netz versorgen -egal ob Internet, Tiktok, Whatsapp, Fratzenbook und co. -und das sind eigentlich fast alle -sind bald keinen Pfifferling mehr wert, weil der Wahrheitsgehalt gegen Null geht und man echt von Manipulation nicht mehr unterscheiden kann.

Eigentlich das Ende der Digitalen Informationsbeschaffung. Schaltet die Netze ab und lest wieder gedruckte Lokalzeitung!
- E
  Erfahrungssammler
  
  05.04.2024, 10:40 Uhr
  @Krumbeere:
  Mir fällt keine Erfindung oder Neuentwicklung ein, die nicht sofort übelst missbraucht wurde.
  
  Feuer, Steinbearbeitung, Dampfkraft, Elektrizität, Chemikalien, IT, jetzt KI...
  
  Mit wie vielen Schraubenschlüsseln mögen wohl schon Schädel eingeschlagen worden sein, statt Schrauben anzuziehen.
  
  Ich erlaube mir mal, Hannes Jaenickes Aussage in einer Talkshow zu zitieren: "Der Mensch ist eine dumme Sau!"
  
  Auf die Ungerechtigkeit gegenüber der Sau will ich gar nicht eingehen.
- Mustardman
  
  03.04.2024, 14:04 Uhr
  @Krumbeere:
  Und wo nimmt die "gedruckte Lokalzeitung" ihre Inhalte her...? Wenn es überhaupt noch welche gibt?
- PA
  Paul Anther
  
  03.04.2024, 12:03 Uhr
  @Krumbeere:
  Generation Z und jünger würde an Entzugserscheinungen zugrundegehen.
0S
0 Substanz

02.04.2024, 18:11 Uhr

Wieso ist dieses ein Superwahljahr?
Mustardman

02.04.2024, 18:03 Uhr

Um mal über etwas anderes zu reden als über Gefahren: Wer von seinen Angehörigen viele Texte und ein paar Sprachaufnahmen hat, kann eine AI dann mit diesen Texten und sonstigen persönlichen Daten füttern, die Stimme antrainieren und kann dann irgendwann seinen Uropa oder so um Rat fragen, auch wenn der schon lange tot sein sollte. Auch nicht gruseliger als ein Grabmal...
- S
  Suryo
  
  04.04.2024, 09:47 Uhr
  @Mustardman:
  In China passiert das schon:
  
  www.theguardian.co...-revive-loved-ones

meistkommentiert

Abgrenzung zur AfD

Der Umgang der Union mit der AfD ist Ausdruck von Hilflosigkeit

ACAB bei den Grüüünen

Wenn Markus Söder sein Glück nur in Worte fassen könnte

Israels Kriegsführung in Gaza

Echte Hungerhilfe geht anders

Queere Bewegungen

Mehr als nur Glitzer

Sugardating

Intimität als Ware

Sinkende CO₂-Emissionen

Aber in China!