Voice Engine von OpenAI weckt Ängste: Künstlich Stimmen imitieren
OpenAI stellt ein neues Programm vor: Mit Voice Engine lassen sich Stimmen imitieren. Im Superwahljahr verstärkt das Ängste vor Manipulation.
Im März 2022 gab Präsident Selenskyj die Ukraine auf und kapitulierte vor Russland. Im November 2023 erklärte Kanzler Olaf Scholz, er werde die AfD verbieten. Und im Januar dieses Jahres rief US-Präsident Joe Biden seine Wähler:innen selbst an und bat sie, nicht zu den Vorwahlen zu gehen. Das alles ist so natürlich nie passiert. Und doch ist es Teil unserer politischen Wirklichkeit. „Deepfakes“, die Erstellung von gefälschten Videos durch künstliche Intelligenz, sind im in den letzten Jahren zu einem Phänomen geworden.
Spätestens seit 2019 wird vermehrt über die Gefahren der Täuschungen berichtet und vor ihnen gewarnt. Auch in einem Superwahljahr wie diesem werden Deepfakes als Gefahr wahrgenommen. Sie sind ein einfaches und niedrigschwelliges Mittel, um die Europawahl und insbesondere die US-Präsidentschaftswahl zu beeinflussen. Ausgerechnet jetzt stellt eines der größten KI-Unternehmen eine neue Software vor, mit der Stimmen so leicht zu imitieren sind wie nie zuvor.
Mit dem Chatbot ChatGPT hat sich das US-Unternehmen OpenAI als Marktführer bei künstlicher Intelligenz etabliert. Der Chatbot kann mit den Nutzer:innen Gespräche führen, Fragen beantworten und mithilfe einer simplen Aufgabenstellung ganze Aufsätze schreiben. Am Freitag hat OpenAI nun erstmals die Voice Engine vorgestellt. Mit der Software soll die perfekte Imitation einer Stimme möglich sein, auch auf mehreren Sprachen. Dafür braucht es nicht mehr als ein 15-sekündiges Beispiel und schon kann das Programm die Stimme in allen Lagen und mit allen Eigenheiten imitieren.
Personen des öffentlichen Lebens können sich kaum vor dem Missbrauch ihrer Stimme schützen. Selbst bei Privatpersonen reicht schon eine Sprachnachricht von Messengerdiensten aus, damit man ihre Stimme zweckentfremden kann. OpenAI weiß um die Gefahren, die das eigene Programm mit sich bringt. Auch deswegen hält das Unternehmen die Software noch zurück und will mit einer breiteren Freigabe vorsichtig sein.
Falscher Anruf von Joe Biden
Auch die Vereinten Nationen sehen Handlungsbedarf im Feld der künstlichen Intelligenz. Am 21. März verabschiedete die Organisation eine Resolution zur besseren Kontrolle von KI. Das Ziel sind „sichere und vertrauenswürdige Systeme der künstlichen Intelligenz“ und eine nachhaltige Entwicklung der Technik, ohne Missbrauch und Datenschutzverletzungen. Wie das umgesetzt wird, bleibt bei der rechtlich nicht bindenden Resolution abzuwarten.
Dabei stellen Deepfakes, ganz gleich ob mit dem Gesicht, der Stimme oder gleich beidem, einen massiven Eingriff in die Persönlichkeitsrechte dar. Durch die Fälschungen entsteht nicht nur die Gefahr der Erpressung und des Mobbings, sondern auch die einer massiven psychischen Belastung. In den letzten Jahren ist zudem die Deepfake-Pornografie regelrecht explodiert, sowohl mit bekannten Stars als auch privaten Gesichtern.
Inzwischen ist es ein Leichtes, Menschen Dinge sagen und tun zu lassen, die sie nie gesagt oder getan haben. In Teilen wirkt die Technik noch etwas holprig, doch ihre rasante Entwicklung wird auch diese Kanten glätten. Bei manchen Fakes, wie der Wahlbeeinflussung bei den US-Vorwahlen, braucht es nicht einmal ein Gesicht, sondern nur ein paar Sätze. Im US-Bundesstaat New Hampshire wurden demokratische Wähler:innen von einer gefälschten Stimme des Präsidenten angerufen. Der vermeintliche Joe Biden bat darum, nicht zu den Vorwahlen zu gehen.
Wer hinter der Manipulation steckt, ist noch immer unklar. Doch reicht ein solcher Fall bereits, um Unsicherheit zu schüren. Auch wenn die Voice Engine von OpenAI ein neues, noch schnelleres Kapitel in der Stimmenimitation eröffnet, ist das Problem längst auch Teil des Medienalltags. Es braucht deutlich mehr Medienkompetenz, speziell an Schulen, um Deepfakes erkennen und einordnen zu können.
Trump und Obama über Chipssorten
Seit einiger Zeit gibt es in den sozialen Medien, insbesondere auf Youtube und Tiktok, auch den Trend namens „AI Presidents“: In Fake Videos unterschiedlicher Länge unterhalten sich Joe Biden, Donald Trump und Barack Obama miteinander über verschiedene Themen. Mal machen sie rassistische Witze, bewerten verschiedene Chipssorten oder Videospiele, beleidigen sich gegenseitig oder spielen UNO gegeneinander.
Manchmal hört man in den Videos auch die Stimmen von George W. Bush oder Hillary Clinton. Während die Präsidenten meist nur mit ausgeschnittenen Bildern in leichter Bewegung dargestellt werden, sind ihre Stimmen täuschend echt.
Die humoristischen Videos wirken zwar kurzweilig, doch zeigen sie, wie einfach es mittlerweile ist, Stimmen und ganze Konversationen zu fälschen. Jeder kann Fälschungen erstellen und die Präsidenten und andere Prominente sagen lassen, was auch immer sie wollen – von extremistischen Aussagen bis hin zu Kapitulations- und Liebeserklärungen. Während es dafür vorher mehrere Minuten der Originalstimme brauchte, sind es dank Voice Engine nur noch wenige Sekunden.
taz lesen kann jede:r
Als Genossenschaft gehören wir unseren Leser:innen. Und unser Journalismus ist nicht nur 100 % konzernfrei, sondern auch kostenfrei zugänglich. Texte, die es nicht allen recht machen und Stimmen, die man woanders nicht hört – immer aus Überzeugung und hier auf taz.de ohne Paywall. Unsere Leser:innen müssen nichts bezahlen, wissen aber, dass guter, kritischer Journalismus nicht aus dem Nichts entsteht. Dafür sind wir sehr dankbar. Damit wir auch morgen noch unseren Journalismus machen können, brauchen wir mehr Unterstützung. Unser nächstes Ziel: 40.000 – und mit Ihrer Beteiligung können wir es schaffen. Setzen Sie ein Zeichen für die taz und für die Zukunft unseres Journalismus. Mit nur 5,- Euro sind Sie dabei! Jetzt unterstützen
meistkommentiert
Anschlag in Magdeburg
Vorsicht mit psychopathologischen Deutungen
US-Interessen in Grönland
Trump mal wieder auf Einkaufstour
Lohneinbußen für Volkswagen-Manager
Der Witz des VW-Vorstands
Insolventer Flugtaxi-Entwickler
Lilium findet doch noch Käufer
Mangelnde Wirtschaftlichkeit
Pumpspeicher kommt doch nicht
Täter von Magdeburg
Schon lange polizeibekannt