: Die KI übernimmt unsere Stimme
KI könne keine echten Sprecher ersetzen, glauben heute noch viele. Ist das so? Unser Autor ist selbst Hörbuchsprecher und befürchtet das Ende seines Jobs
Von Jürgen Kalwa
Es begann mit einem Präsentationsauftritt auf einer Plattform des amerikanischen Hörbuch-Vertriebs Audible namens ACX. Die Digitalbörse, die sich innerhalb der letzten Jahre zu einem soliden Geschäftsmodell für einen ziemlich unübersichtlichen Markt entwickelt hat, bringt mithilfe einer Software Autoren und Verlage auf der einen Seite und Sprecher auf der anderen zusammen. Mit durchautomatisierten Kommunikationsmöglichkeiten bis hin zur Honorarabrechnung.
Gut für jene, die ihr eigenes Aufnahmestudio besitzen und alle tontechnischen Qualitätsstandards erfüllen, die an Hörbücher angelegt werden. Und die auf diese Weise den wachsenden internationalen Markt mit ständig neuer Ware füttern. Es gibt schließlich Bücher und Sprecher wie Sand am Meer. Aber im Kontrast dazu nur wenige professionelle Hörbuchverlage. Und die bremsen wie ein Flaschenhals die Flut aus.
ACX war vor ein paar Jahren eine ideale Anlaufstelle für einen Quereinsteiger ins Sprechergeschäft wie mich. Denn hier kam mein erstes Hörbuch zustande, „Manifestieren mit dem Gesetz der Anziehung“, ein Stoff aus der esoterischen Ratgeberecke. Ich nahm danach ein bis zwei Sachbücher im Jahr auf, wurde aber irgendwann neugierig auf eine ganz andere Welt: Belletristik. Die Ansprüche an die Sprecher sind höher, und es sind schauspielerische Mittel und ein facettenreicher Einsatz der Stimme gefragt.
Ich bin nicht so vermessen, zu glauben, ich spiele in der Liga eines Christian Brückner, Spitzname „Die Stimme“. Oder als könnte ich meinem Lieblings-Hörbuch-Erzähler, dem Engländer Simon Vance, das Wasser reichen. Doch viele Jahre Radioerfahrung, ein erstklassiges Mikrofon und jede Menge erarbeitetes Wissen für den Umgang mit den Reglern des digitalen Mischpults scheinen auch mir ein gutes Fundament. Wie gut? Im Moment genieße ich vor allem eines: Ich stehe im Unterschied zu vielen in dem Metier nicht unter dem Druck, mit Hörbüchern meinen Lebensunterhalt einzuspielen.
Trotzdem wäre es völlig naiv, die Welle zu ignorieren, die derzeit wie ein Tsunami über den riesigen digitalen Ozean auf uns zurollt. KI wird viele von uns plattmachen. Auch wenn, wie etwa eine private Umfrage in einer Facebook-Gruppe zeigt, deren 4.400 Mitglieder sich intensiv für Hörbücher interessieren, aktuell noch eine völlig andere Wahrnehmung vorherrscht: „KI wird mir niemals einen echten Sprecher ersetzen.
„Ob Hörbuch oder Buch, wenn draufstehen wird ‚KI‘, werde ich diese nicht nehmen“, lautet die durchgängige Haltung. Angereichert mit Gelübden wie „Ich zahle und höre nichts mit KI-Sprecher“ und Parolen wie „KI kann einen wahren Sprecher niemals ersetzen. Das klingt kalt. Die Hörer merken das.“ Ich sag mal: In Gottes Ohr. Man sollte trotz solcher Einschätzungen davon ausgehen, dass für unsereins eine ziemlich gespenstische Zeit angebrochen ist.
Schauspielergewerkschaften in den USA oder Fachverbände wie der Verband Deutscher Sprecher:innen e. V. (VDS) in Deutschland fahren berechtigterweise apokalyptische Kampagnen. Sie haben erkannt, „dass menschliche Stimmen durch KI-generierte Stimmen, denen es an Empathie, emotionaler Tiefe und kulturellem Kontext fehlt, ersetzt werden“, wie der VDS schreibt.
Wobei man der Genauigkeit halber darauf hinweisen sollte, dass es im Unterschied zur Vergangenheit nicht mehr um die Perfektionierung von „künstlichen Stimmen von Robotern“ geht, wie lautstark rebellierende deutsche Synchronsprecher die Entwicklung zuletzt charakterisierten.
Die Entwicklung ist viel perfider. Die weitgehend perfektionierte Sprecher-KI von heute nutzt und kopiert echte Profis und nimmt bei stundenlangen Arbeitsproben deren differenzierte Artikulationsmodalitäten auf. Und der Fundus wird nicht kleiner, sondern wächst rapide. Wenn die FAZ recht behält, die vor ein paar Monaten vermeldete, dass künstliche Intelligenz „schon jetzt täuschend echte Klone menschlicher Stimmen“ produziert und „hilflose gesetzliche Regulierungsversuche mit erhobenem Zeigefinger“ zu spät kommen, können wir wohl einpacken.
Dann reduziert sich das Thema nur noch auf Urheberrechtsfragen: Gehört meine Stimme mir? Kann ich sie verkaufen oder vermieten? Kann ich Diebe und Betrüger verklagen? Sind die Nutzungsrechte so viel wert, dass es sich lohnt, sie zu verhökern? Welche Verwertungsgesellschaft kümmert sich um das Ganze? Die Frage nach der Transparenz wird bei Audible – bis jetzt noch – redlich gehandhabt. KI-Hörbücher kommen mit dem Etikett „Virtual Voice“ daher. Aber dass das so bleibt, mag man nicht glauben.
Die Strategie, die im Mai in einer Pressemitteilung angekündigt wurde, gab keine Zusicherungen, sondern verbreitete nur Floskeln. KI sei die „große Chance, die Verfügbarkeit von Hörbüchern zu erweitern“, erklärte Audible-CEO Bob Carrigan. „Wir werden in der Lage sein, mehr Geschichten zum Leben zu erwecken.“ Gut für Autoren. Gut für die Umsätze von Audible und die Mutterfirma Amazon. Schlecht auf jeden Fall für Übersetzer, die schon seit mehr als einem halben Jahrhundert als Geistesarbeiter zweiter Klasse behandelt werden und in diesem System ebenfalls von Maschinen ersetzt werden.
Und sicher auch schlecht für Sprecher. Wir sind nur ein weiteres schwaches Glied in jener Techno-Kette, in der die Merkantilisierung der Kreativität dazu dient, die Produktionsverhältnisse einer auf Massenumsätze ausgelegten globalen Kulturindustrie voranzutreiben. Geist und Ingenium? Originalität und Sinnlichkeit? Alles versinkt im Sumpf der totalen Simulation.
Eine der Abspielplattformen für Bücher aus dem KI-Universum ist übrigens Youtube, wie Nathalie de Ahna weiß, die vor fünf Jahren begann, ihren Kanal „Lie liest vor“ mit einem Katalog von über 500 urheberrechtsfreien Märchen zu bespielen. Aufnehmen, bearbeiten, hochladen – es war viel Arbeit. Aber sie begann sich dank wachsender Abonnentenzahlen und Werbeeinnahmen irgendwann auszuzahlen. „Wenn du gut bist und Ausdauer hast“, sagt sie, „dann kannst du davon leben.“
Auch wenn die Zielgruppe – Menschen mit Schlafstörungen, die sich gerne etwas vorlesen lassen, was „tatsächlich beruhigt und nicht nervt“ – keinen Cent für diesen Service bezahlen muss. Oder besser: Man konnte davon leben. Denn seit einem guten halben Jahr wächst die anonyme Konkurrenz. „Da kommen jede Woche neue Youtube-Kanäle dazu. Alles KI-Stimmen.“ Vor allem ein Anbieter namens „ElevenLabs“, gegründet vor drei Jahren in New York, hat sich zu einer gut geölten Maschine entwickelt. Denn die synthetisierten Stimmen können in jeder Weltsprache kichern, seufzen, hörbar atmen und eine Sprachmelodie abspulen, die wirklich sehr menschlich klingt.
Und so ist man längst auf dem Weg zum Marktführer und beliefert Spotify und Audible. Das hat die in der Nähe der holländischen Universitätsstadt Leiden lebende Nathalie de Ahna, die auf einem zweiten Kanal mit „Lies Kurzgeschichten“ inzwischen auch eigene Texte publiziert, auf die Idee gebracht, ihre Stimme von „ElevenLabs“ testweise klonen zu lassen. Ein Experiment, um abschätzen zu können, wie groß die Wahrscheinlichkeit ist, Menschen zu düpieren, die nicht begreifen, dass die anonymen Stimmen eine eigenartige Monotonie ausstrahlen.
Und die nur dann mit der Stirn runzeln, wenn die Aufnahmen klassische KI-Schnitzer enthalten: seltsam oder komplett falsch ausgesprochene Eigennamen und Zahlen. Die Sprecherin hat sich über die „seelenlose Kopie“ ihrer Stimme „furchtbar erschrocken“, sagt sie. „Am Anfang bist du fasziniert, aber nach einer Weile genervt, weil du selber denkst, ich mache das aber viel besser. Nämlich mit viel mehr Seele dahinter.“ Aber fällt so etwas Nutzern aus, die auf der Suche nach kostenlosem Stoff sind?
De Ahna hat sich im nächsten Schritt bewusst dagegen entschieden, ihre Stimme zu verkaufen. Sie wurde allerdings seitdem bereits von einer Firma angefragt, ob sie so etwas machen würde. „Ich habe mir den Vertrag zuschicken und bewusst von einer KI kontrollieren lassen. Die hat gemeint, um Gottes Willen, mach das bloß nicht. Du verkaufst Rechte an allem und für immer. Du kannst das niemals zurückdrehen.“ Heroischer Idealismus hin oder her: Zurückdrehen konnte schon Don Quijote nichts.
Übrigens: Der Umsatz mit Hörbüchern steigt beharrlich, sowohl bei Download-Anbietern wie Audible als auch bei Streaming-Plattformen wie Storytel. Die jüngste Marktanalyse von Media Control aus dem letzten Oktober bestätigte den Trend. Die Zuwachsrate gegenüber 2023 lag bei 6 Prozentpunkten, das entspricht dem gesamten Marktanteil von CDs alleine.
Ich habe übrigens nicht vor, meine Stimme klonen zu lassen. Solange es Autoren und Verlage gibt, die sich gegen die Entfremdung stemmen, gilt für diese Arbeit dasselbe, was auch in anderen Wirtschaftszweigen seit Beginn der Industrialisierung von Kreativen und Kunsthandwerkern aller Art praktiziert wurde.
Man kann sich diesem Meer aus lauter Massenware entgegenstemmen. Aber es braucht dazu ein Publikum, das genau das zu schätzen weiß. Wie groß das ist, wird sich schon bald zeigen.
taz lesen kann jede:r
Als Genossenschaft gehören wir unseren Leser:innen. Und unser Journalismus ist nicht nur 100 % konzernfrei, sondern auch kostenfrei zugänglich. Texte, die es nicht allen recht machen und Stimmen, die man woanders nicht hört – immer aus Überzeugung und hier auf taz.de ohne Paywall. Unsere Leser:innen müssen nichts bezahlen, wissen aber, dass guter, kritischer Journalismus nicht aus dem Nichts entsteht. Dafür sind wir sehr dankbar. Damit wir auch morgen noch unseren Journalismus machen können, brauchen wir mehr Unterstützung. Unser nächstes Ziel: 50.000 – und mit Ihrer Beteiligung können wir es schaffen. Setzen Sie ein Zeichen für die taz und für die Zukunft unseres Journalismus. Mit nur 5,- Euro sind Sie dabei! Jetzt unterstützen