Manipulation von Lippenbewegungen: Obama sagt, was du willst
US-Forscher haben eine Software entwickelt, um Lippenbewegungen in Videos zu fälschen. Oder um diese Fälschungen zu entlarven.
Künstliche Intelligenz, liebevoll KI abgekürzt, ist das Baby der Wissenschaft. Jeden Tag lernt es etwas Neues und die Mamis und Papis kippen um vor Stolz. Wenn der kleine Racker sein Wissen nur mal nicht anders anwendet, als sie es gerne hätten.
Die University of Washington hat gerade ein Projekt veröffentlicht mit dem Namen „Synthesizing Obama: Learning Lip Sync from Audio“. Eine neue Software, mit der man Videos mithilfe von Audiodateien verändern kann.
Die Wissenschaftler zeigen an einem Video des ehemaligen US-Präsidenten Barack Obama, wie die neue Software funktioniert: Anstatt der tatsächlich von ihm gehaltenen Rede werden Obama Worte in den Mund gelegt, die er zu einem anderen Zeitpunkt gesagt hat.
Dazu fütterte das Team die Software mit vierzehn Stunden Audiomaterial von Obamas Stimme. Diese Daten werden anschließend in eine virtuelle Simulation von Lippen eingefügt. Vektorpunkte bilden eine virtuelle Simulation von Obamas Lippen und bewegen sich wie die des Vorbildes. In der nächsten Phase nehmen die Lippen menschliche Gestalt an: Aus den giftgrünen Punkten wird ein hautfarbener Mund. Nach ein paar Nachbesserungen von Zähnen und weiteren Details wird der so gefälschte untere Gesichtsteil in ein ganz anderes Video von Obama eingefügt. Die Computeranimateure passen dann noch schnell die Kopfbewegungen an das Gesagte an, damit der neu-alte Obama keine unnatürlichen Bewegungen macht. Et voilà! Fertig ist das Obama-Video mit einer ganz neuen Botschaft.
Der Unterschied ist kaum erkennbar
Das Bahnbrechende an dieser Technik ist: Die Qualität des Ursprungsvideos kann sehr schlecht sein, das Video gar aus einer ganz anderen Zeit stammen – und die Person nicht mal im Bild gewesen sein. Denn der Bearbeitungsprozess benötigt nur Audiodateien.
Forscher der Stanford University haben bereits 2016 ein ähnliches Projekt namens „Face2Face“ vorgestellt. Anders als bei der University of Washington stützten sie sich jedoch auf ein Gesichtserkennungsprogramm. Das Ergebnis ist auch hier verblüffend: Der Nutzer wird mit einer Kamera gefilmt und seine Gesichtsbewegungen werden in Echtzeit auf das Gesicht projiziert.
Allerdings ist das Ergebnis aus Stanford noch nicht so akkurat und somit leichter als Fälschung identifizierbar. Bei den Ergebnissen aus Washington hingegen ist es für den Laien kaum mehr möglich, den Unterschied zu einem authentischen Video zu erkennen.
Das Projekt fasziniert und beängstigt gleichermaßen. Was mit der heutigen Technik alles möglich ist, vor allem bei dem harmlosen Beispiel: Obama sagt etwas, was er zu einem anderen Zeitpunkt schon einmal gesagt hat. Es sind immer noch Aussagen von Obama selbst.
Wirkungsvolle Babysitter programmieren
Allerdings gibt es auch ein Projekt vom Forschungsteam der University of Alabama in Birmingham, das sich mit der Imitation von Stimmen beschäftigt. Hier reichen bereits drei bis fünf Minuten Audiomaterial aus, um eine synthetische Stimme zu erschaffen, die sowohl Menschen als auch biometrische Stimmerkennungssicherheitssysteme täuschen kann.
Kombiniert man nun das Verfahren der Universität Washington, wo die Videomanipulation nur noch Audiodateien benötigt, mit den Ergebnissen aus Birmingham: Horrorkopfkino.
Ira Kemelmacher-Shlizerman aus dem Forschungsteam an der University of Washington ist sich dessen bewusst. CNN sagte sie: „Es ist wichtig zu wissen, dass Videos genau wie Fotos verändert werden können.“
Das war laut der Forscherin auch ein Grund dafür, die Ergebnisse zu veröffentlichen: damit entsprechend auch Algorithmen entwickelt werden können, die bearbeitete Videos identifizieren.
Fakt ist: Dass die KI-Babys groß werden und beunruhigende Fähigkeiten entwickeln, ist nicht zu verhindern. Jetzt ist es an der Zeit, ihnen wirkungsvolle Babysitter zu programmieren.
taz lesen kann jede:r
Als Genossenschaft gehören wir unseren Leser:innen. Und unser Journalismus ist nicht nur 100 % konzernfrei, sondern auch kostenfrei zugänglich. Texte, die es nicht allen recht machen und Stimmen, die man woanders nicht hört – immer aus Überzeugung und hier auf taz.de ohne Paywall. Unsere Leser:innen müssen nichts bezahlen, wissen aber, dass guter, kritischer Journalismus nicht aus dem Nichts entsteht. Dafür sind wir sehr dankbar. Damit wir auch morgen noch unseren Journalismus machen können, brauchen wir mehr Unterstützung. Unser nächstes Ziel: 40.000 – und mit Ihrer Beteiligung können wir es schaffen. Setzen Sie ein Zeichen für die taz und für die Zukunft unseres Journalismus. Mit nur 5,- Euro sind Sie dabei! Jetzt unterstützen
meistkommentiert
Exklusiv: RAF-Verdächtiger Garweg
Meldung aus dem Untergrund
Anschlag in Magdeburg
„Eine Schockstarre, die bis jetzt anhält“
Anschlag auf Magdeburger Weihnachtsmarkt
Vieles deutet auf radikal-islamfeindlichen Hintergrund hin
Keine Konsequenzen für Rechtsbruch
Vor dem Gesetz sind Vermieter gleicher
Wirbel um KI von Apple
BBC kritisiert „Apple Intelligence“
Russische Männer auf TikTok
Bloß nicht zum Vorbild nehmen