Stimmensimulator und Fake Voices: In den Mund gelegt

2549100 5480958

Stimmensimulator und Fake Voices: In den Mund gelegt

Mit nur wenig Ausgangsmaterial lässt sich bald jede Stimme überzeugend nachbauen. Fake Voices könnten zu einem Problem werden.

11.2.2018 13:18 Uhr

Um nicht Opfer eines Stimmsimulators zu werfen, hilft nur: schweigen Foto: imago/imagebroker/franke

Von Anna Schughart

Wenn Nitesh Saxena über die Technologie spricht, die er erforscht, kommen die positiven Aspekte ziemlich kurz. Sie könnte Menschen, die keine Stimme mehr haben, eine geben, das schon. Aber der Wissenschaftler von der University of Alabama at Birmingham spricht dann doch wieder schnell von den Gefahren, die von den Fake Voices ausgehen.

Eine kurze Aufnahme, mehr braucht es bald nicht mehr, um jede menschliche Stimme zu generieren – und sie sagen zu lassen, was man will. Bisher waren dazu große Mengen Daten nötig, stundenlange Sprachaufnahmen, um die Software zu trainieren. Trotzdem habe das Ergebnis meist wie ein Roboter geklungen, sagt Saxena. „Die aktuelle Technologien arbeiten etwas anders.“ Anstatt eine Stimme von Grund auf neu zu modellieren, interessiert sich das System für die Unterschiede zwischen zwei Stimmen. Es wandelt dann die eine Stimme in die andere um, übernimmt so zum Beispiel die Intonation. Das bedeutet, dass schon mehrere kurze Sätze als Trainingsmaterial ausreichen.

Das hat auch das Interesse von Unternehmen geweckt. Das kanadische Start-up Lyrebird zum Beispiel behauptet, ihre Digital Voice brauche nur eine Minute Aufzeichnungen als Ausgangsmaterial. In Hörproben des Unternehmens kommen unter anderem „Donald Trump“ und „Barack Obama“ zu Wort. Die berühmten Politiker sind eindeutig zu erkennen und klingen besser als so mancher Stimmimitator in der Morningshow eines Lokalradios. Doch Trump klingt trotzdem etwas flach und „digital“, wenn sein Lyrebird-Ego über Nordkorea spricht. Das ist besonders auffällig, wenn man sich viele Beispiele anhört.

Man kann die Software von Lyrebird auch selbst testen. Dazu muss man mindestens eine Minute Sprachmaterial bereitstellen, also Sätze wie: „Andreas placed the shell against his ear so he could hear the ocean“ einsprechen. Dann braucht die Software ein paar Minuten, und anschließend kann man Sätze eintippen und sie sich dann selbst vorlesen hören. Täuschend echt klingt allerdings anders. „Sollst du das sein?“, fragt mein Freund. Ich höre mich wie mein angetrunkenes Roboter-Ich an.

Aber, sagt Lyrebird, je mehr Material man zur Verfügung stellt, desto genauer wird das Ergebnis. (Mit amerikanischem Akzent soll es am besten funktionieren.) In Zukunft, sind sich Experten sicher, werden die Sprachgeneratoren immer besser, die Stimmen, die sie erzeugen immer überzeugender. „Die Fähigkeiten der Menschen, sie zu erkennen, werden sich aber nicht verbessern“, sagt Saxena.

Nicht nur Menschen lassen sich täuschen

Schon heute sind Menschen nicht in der Lage, gute Fake Voices von echten zu unterscheiden. Saxena und seine Kollegen und Kolleginnen haben in einer Studie einen von ihnen programmierten Stimmengenerator getestet. Das Ergebnis: Nicht nur Menschen lassen sich täuschen, Maschinen fällt es sogar noch schwer, die falschen Stimmen zu erkennen. Das bedeutet: Systeme, die eine Sprachauthentifizierung nutzen, sind anfällig für Hackerangriffe.

Maschinen fällt es nochschwer, die falschen Stimmen zu erkennen

Gedacht waren die Fake Voices am Anfang dazu, Menschen, die durch eine Krankheit ihre Stimme verloren hatten, diese wieder zurückzugeben. Stephen Hawking würde dann nicht wie ein Roboter klingen, sondern wie er selbst. Aber auch zum Beispiel Sprachassistenten könnten so menschlicher wirken. Lyrebird schlägt vor, sich mit ihrer Software zum Beispiel Hörbücher in einer Stimme der Wahl vorlesen zu lassen. Klingt alles relativ harmlos. Aber was, wenn die Technologie – eventuell gekoppelt an ein gefälschtes Video – missbraucht wird?

Mit diesem Problem muss sich auch Lyrebird auseinandersetzen. In einem Ethik-Statement schreibt die Firma, es sei „unvermeidlich“, dass ihre Technologie in ein paar Jahren weit verbreitet sei. Die Frage laute deshalb, „wie man sie bestmöglich in die Welt einbringen kann, um das Missbrauchsrisiko so weit wie möglich zu vermeiden“. Die Antwort: Indem man bei den Menschen ein Bewusstsein für die Existenz der Technologie schaffe und sicherstelle, dass niemand meine Stimme ohne mein Einverständnis nutzen könne.

Die große Gefahr, sagt Saxena, bestehe darin, dass die Fake Voices dazu genutzt werden, um Fake News zu machen. Wann taucht die erste nicht gekennzeichnete Aufnahme auf, in der ein vermeintlicher Trump den Nordkoreanern den Krieg erklärt? Wie viele werden darauf hereinfallen, was werden die Folgen sein? Bisher hat eine Tonaufnahme die Diskussion darüber, ob etwas wirklich so gesagt wurde oder nicht, beendet. Das könnte sich bald ändern – und zwar nicht nur für Prominente, von denen es bereits reichlich Tonmaterial gibt.

Sprachauthentifizierung austricksen

„Momentan ist es nicht sehr schwer, von jemandem ein kurzes Stimmensample zu bekommen“, sagt Saxena. Von vielen Menschen gibt es bereits frei zugängliches Tonmaterial – zum Beispiel auf YouTube. Und wenn es ein Angreifer gezielt auf jemanden abgesehen hat, könnte eine heimlich gemachte Aufnahme schon reichen, um eine Sprachauthentifizierung zu überlisten. Auch für Saxena stellt sich die Frage, wie viel er von sich veröffentlicht: „Natürlich will ich, dass meine Vorlesungen online gestellt werden, damit sie mehr Menschen erreichen. Gleichzeitig mache ich mich damit angreifbar.“

Der Wissenschaftler hält Aufklärung für das beste Mittel gegen Fake Voices. Die Menschen müssten sich bewusst sein, dass die eigene Stimme nicht mehr fälschungssicher sei. Sie müssten vorsichtiger sein, wenn sie Dinge online posten, aufpassen, was und mit wem sie etwas teilen. Ein einfaches Tool, das man herunterladen könne und das eine Aufnahme analysiere, sagt Saxena, gebe es derzeit nicht.

Eine gute Nachricht hat Saxena immerhin: Auch wenn Menschen wohl nicht in der Lage sind, die Fake Voices zu erkennen, Maschinen sollten zumindest besser darin werden. Zum Beispiel, indem sie überprüfen, ob eine Stimme aus einem Lautsprecher kommt. Auch dass sich immer mehr Menschen für das Thema interessierten, sei hilfreich: „Denn Fake Voices werden uns alle betreffen.“

taz lesen kann jede:r

Als Genossenschaft gehören wir unseren Leser:innen. Und unser Journalismus ist nicht nur 100 % konzernfrei, sondern auch kostenfrei zugänglich. Texte, die es nicht allen recht machen und Stimmen, die man woanders nicht hört – immer aus Überzeugung und hier auf taz.de ohne Paywall. Unsere Leser:innen müssen nichts bezahlen, wissen aber, dass guter, kritischer Journalismus nicht aus dem Nichts entsteht. Dafür sind wir sehr dankbar. Damit wir auch morgen noch unseren Journalismus machen können, brauchen wir mehr Unterstützung. Unser nächstes Ziel: 40.000 – und mit Ihrer Beteiligung können wir es schaffen. Setzen Sie ein Zeichen für die taz und für die Zukunft unseres Journalismus. Mit nur 5,- Euro sind Sie dabei! Jetzt unterstützen

Velofisch

11.02.2018, 15:02 Uhr

Fake Voices - dazu gibt es Fake Videos. Man kann also ein komplettes Interview faken mit Bild und Ton. Das bedeutet schlicht, dass wir den Aufnahmen nicht mehr trauen werden. Eventuell kann die genaue Analyse noch Spuren der Synthese finden. Aber es wird wie mit digitalen Bildern sein: Beweiswert=0! Ist das schlimm und gefährlich? Vermutlich eher unangenehm.