piwik no script img

Voice Engine von OpenAI weckt ÄngsteKünstlich Stimmen imitieren

OpenAI stellt ein neues Programm vor: Mit Voice Engine lassen sich Stimmen imitieren. Im Superwahljahr verstärkt das Ängste vor Manipulation.

Auch als Donald Trump kann man sich am Telefon ausgeben, dank Voice Engine Foto: Toru Hanai/reuters

Im März 2022 gab Präsident Selenskyj die Ukraine auf und kapitulierte vor Russland. Im November 2023 erklärte Kanzler Olaf Scholz, er werde die AfD verbieten. Und im Januar dieses Jahres rief US-Präsident Joe Biden seine Wäh­le­r:in­nen selbst an und bat sie, nicht zu den Vorwahlen zu gehen. Das alles ist so natürlich nie passiert. Und doch ist es Teil unserer politischen Wirklichkeit. „Deepfakes“, die Erstellung von gefälschten Videos durch künstliche Intelligenz, sind im in den letzten Jahren zu einem Phänomen geworden.

Spätestens seit 2019 wird vermehrt über die Gefahren der Täuschungen berichtet und vor ihnen gewarnt. Auch in einem Superwahljahr wie diesem werden Deepfakes als Gefahr wahrgenommen. Sie sind ein einfaches und niedrigschwelliges Mittel, um die Europawahl und insbesondere die US-Präsidentschaftswahl zu beeinflussen. Ausgerechnet jetzt stellt eines der größten KI-Unternehmen eine neue Software vor, mit der Stimmen so leicht zu imitieren sind wie nie zuvor.

Mit dem Chatbot ChatGPT hat sich das US-Unternehmen OpenAI als Marktführer bei künstlicher Intelligenz etabliert. Der Chatbot kann mit den Nut­ze­r:in­nen Gespräche führen, Fragen beantworten und mithilfe einer simplen Aufgabenstellung ganze Aufsätze schreiben. Am Freitag hat OpenAI nun erstmals die Voice Engine vorgestellt. Mit der Software soll die perfekte Imitation einer Stimme möglich sein, auch auf mehreren Sprachen. Dafür braucht es nicht mehr als ein 15-sekündiges Beispiel und schon kann das Programm die Stimme in allen Lagen und mit allen Eigenheiten imitieren.

Personen des öffentlichen Lebens können sich kaum vor dem Missbrauch ihrer Stimme schützen. Selbst bei Privatpersonen reicht schon eine Sprachnachricht von Messengerdiensten aus, damit man ihre Stimme zweckentfremden kann. OpenAI weiß um die Gefahren, die das eigene Programm mit sich bringt. Auch deswegen hält das Unternehmen die Software noch zurück und will mit einer breiteren Freigabe vorsichtig sein.

Falscher Anruf von Joe Biden

Auch die Vereinten Nationen sehen Handlungsbedarf im Feld der künstlichen Intelligenz. Am 21. März verabschiedete die Organisation eine Resolution zur besseren Kontrolle von KI. Das Ziel sind „sichere und vertrauenswürdige Systeme der künstlichen Intelligenz“ und eine nachhaltige Entwicklung der Technik, ohne Missbrauch und Datenschutzverletzungen. Wie das umgesetzt wird, bleibt bei der rechtlich nicht bindenden Resolution abzuwarten.

Dabei stellen Deepfakes, ganz gleich ob mit dem Gesicht, der Stimme oder gleich beidem, einen massiven Eingriff in die Persönlichkeitsrechte dar. Durch die Fälschungen entsteht nicht nur die Gefahr der Erpressung und des Mobbings, sondern auch die einer massiven psychischen Belastung. In den letzten Jahren ist zudem die Deepfake-Pornografie regelrecht explodiert, sowohl mit bekannten Stars als auch privaten Gesichtern.

Inzwischen ist es ein Leichtes, Menschen Dinge sagen und tun zu lassen, die sie nie gesagt oder getan haben. In Teilen wirkt die Technik noch etwas holprig, doch ihre rasante Entwicklung wird auch diese Kanten glätten. Bei manchen Fakes, wie der Wahlbeeinflussung bei den US-Vorwahlen, braucht es nicht einmal ein Gesicht, sondern nur ein paar Sätze. Im US-Bundesstaat New Hampshire wurden demokratische Wäh­le­r:in­nen von einer gefälschten Stimme des Präsidenten angerufen. Der vermeintliche Joe Biden bat darum, nicht zu den Vorwahlen zu gehen.

Wer hinter der Manipulation steckt, ist noch immer unklar. Doch reicht ein solcher Fall bereits, um Unsicherheit zu schüren. Auch wenn die Voice Engine von OpenAI ein neues, noch schnelleres Kapitel in der Stimmenimitation eröffnet, ist das Problem längst auch Teil des Medienalltags. Es braucht deutlich mehr Medienkompetenz, speziell an Schulen, um Deepfakes erkennen und einordnen zu können.

Trump und Obama über Chipssorten

Seit einiger Zeit gibt es in den sozialen Medien, insbesondere auf Youtube und Tiktok, auch den Trend namens „AI Presidents“: In Fake Videos unterschiedlicher Länge unterhalten sich Joe Biden, Donald Trump und Barack Obama miteinander über verschiedene Themen. Mal machen sie rassistische Witze, bewerten verschiedene Chipssorten oder Videospiele, beleidigen sich gegenseitig oder spielen UNO gegeneinander.

Manchmal hört man in den Videos auch die Stimmen von George W. Bush oder Hillary Clinton. Während die Präsidenten meist nur mit ausgeschnittenen Bildern in leichter Bewegung dargestellt werden, sind ihre Stimmen täuschend echt.

Die humoristischen Videos wirken zwar kurzweilig, doch zeigen sie, wie einfach es mittlerweile ist, Stimmen und ganze Konversationen zu fälschen. Jeder kann Fälschungen erstellen und die Präsidenten und andere Prominente sagen lassen, was auch immer sie wollen – von extremistischen Aussagen bis hin zu Kapitulations- und Liebeserklärungen. Während es dafür vorher mehrere Minuten der Originalstimme brauchte, sind es dank Voice Engine nur noch wenige Sekunden.

taz lesen kann jede:r

Als Genossenschaft gehören wir unseren Leser:innen. Und unser Journalismus ist nicht nur 100 % konzernfrei, sondern auch kostenfrei zugänglich. Texte, die es nicht allen recht machen und Stimmen, die man woanders nicht hört – immer aus Überzeugung und hier auf taz.de ohne Paywall. Unsere Leser:innen müssen nichts bezahlen, wissen aber, dass guter, kritischer Journalismus nicht aus dem Nichts entsteht. Dafür sind wir sehr dankbar. Damit wir auch morgen noch unseren Journalismus machen können, brauchen wir mehr Unterstützung. Unser nächstes Ziel: 40.000 – und mit Ihrer Beteiligung können wir es schaffen. Setzen Sie ein Zeichen für die taz und für die Zukunft unseres Journalismus. Mit nur 5,- Euro sind Sie dabei! Jetzt unterstützen

Mehr zum Thema

9 Kommentare

 / 
  • Yuval Harari hat völlig recht: die Fälschung von Personen muss genauso verboten werden wie die Fälschung von Geld.

    Falschgeld kann jedes Finanzsystem kollabieren lassen.

    Falschpersonen jede Demokratie.

    Und genau das ist das Problem. Staaten wie Russland oder China müssen sich vor Falschpersonen nicht so fürchten wie Staaten mit Demokratie, d.h. mit Wahlkämpfen, einer Öffentlichkeit und freier Presse.

  • die Entwicklung bei KI geht rasend schnell. Die Geister, die wir riefen, werden wir nicht mehr los. Niemand kann mehr sicher sein, ob gesagtes auch wirklich gesagtes ist.



    Alle Medien, die sich mit Informationen aus dem Netz versorgen -egal ob Internet, Tiktok, Whatsapp, Fratzenbook und co. -und das sind eigentlich fast alle -sind bald keinen Pfifferling mehr wert, weil der Wahrheitsgehalt gegen Null geht und man echt von Manipulation nicht mehr unterscheiden kann.



    Eigentlich das Ende der Digitalen Informationsbeschaffung. Schaltet die Netze ab und lest wieder gedruckte Lokalzeitung!

    • @Krumbeere:

      Mir fällt keine Erfindung oder Neuentwicklung ein, die nicht sofort übelst missbraucht wurde.



      Feuer, Steinbearbeitung, Dampfkraft, Elektrizität, Chemikalien, IT, jetzt KI...



      Mit wie vielen Schraubenschlüsseln mögen wohl schon Schädel eingeschlagen worden sein, statt Schrauben anzuziehen.



      Ich erlaube mir mal, Hannes Jaenickes Aussage in einer Talkshow zu zitieren: "Der Mensch ist eine dumme Sau!"



      Auf die Ungerechtigkeit gegenüber der Sau will ich gar nicht eingehen.

    • @Krumbeere:

      Und wo nimmt die "gedruckte Lokalzeitung" ihre Inhalte her...? Wenn es überhaupt noch welche gibt?

    • @Krumbeere:

      Generation Z und jünger würde an Entzugserscheinungen zugrundegehen.

      • @Paul Anther:

        Generation Z kapiert nicht, was auf sie zukommt und macht sich lustig darüber. KI wird in wenigen Jahren zur größten Bedrohung für uns alle werden. Etwas subtiler als bei Arnie und Terminator, aber prinzipiell genauso erschreckend.

  • Wieso ist dieses ein Superwahljahr?

  • Um mal über etwas anderes zu reden als über Gefahren: Wer von seinen Angehörigen viele Texte und ein paar Sprachaufnahmen hat, kann eine AI dann mit diesen Texten und sonstigen persönlichen Daten füttern, die Stimme antrainieren und kann dann irgendwann seinen Uropa oder so um Rat fragen, auch wenn der schon lange tot sein sollte. Auch nicht gruseliger als ein Grabmal...