piwik no script img

KI und HörbücherDie Maschine übernimmt unsere Stimme

KI könne keine echten Sprecher ersetzen, glauben noch viele. Wirklich? Unser Autor ist selbst Hörbuchsprecher und befürchtet das Ende seines Jobs.

Wer wird künftig noch ins Mikro sprechen? Foto: edwardolive/getty images

Es begann mit einem Präsentationsauftritt auf einer Plattform des amerikanischen Hörbuch-Vertriebs Audible namens ACX. Die Digitalbörse, die sich innerhalb der letzten Jahre zu einem soliden Geschäftsmodell für einen ziemlich unübersichtlichen Markt entwickelt hat, bringt mithilfe einer Software Autoren und Verlage auf der einen Seite und Sprecher auf der anderen zusammen. Mit durchautomatisierten Kommunikationsmöglichkeiten bis hin zur Honorarabrechnung.

Gut für jene, die ihr eigenes Aufnahmestudio besitzen und alle tontechnischen Qualitätsstandards erfüllen, die an Hörbücher angelegt werden. Und die auf diese Weise den wachsenden internationalen Markt mit ständig neuer Ware füttern. Es gibt schließlich Bücher und Sprecher wie Sand am Meer. Aber im Kontrast dazu nur wenige professionelle Hörbuchverlage. Und die bremsen wie ein Flaschenhals die Flut aus.

ACX war vor ein paar Jahren eine ideale Anlaufstelle für einen Quereinsteiger ins Sprechergeschäft wie mich. Denn hier kam mein erstes Hörbuch zustande, „Manifestieren mit dem Gesetz der Anziehung“, ein Stoff aus der esoterischen Ratgeberecke. Ich nahm danach ein bis zwei Sachbücher im Jahr auf, wurde aber irgendwann neugierig auf eine ganz andere Welt: Belletristik. Die Ansprüche an die Sprecher sind höher, und es sind schauspielerische Mittel und ein facettenreicher Einsatz der Stimme gefragt.

Ich bin nicht so vermessen, zu glauben, ich spiele in der Liga eines Christian Brückner, Spitzname „Die Stimme“. Oder als könnte ich meinem Lieblings-Hörbuch-Erzähler, dem Engländer Simon Vance, das Wasser reichen. Doch viele Jahre Radioerfahrung, ein erstklassiges Mikrofon und jede Menge erarbeitetes Wissen für den Umgang mit den Reglern des digitalen Mischpults scheinen auch mir ein gutes Fundament. Wie gut? Im Moment genieße ich vor allem eines: Ich stehe im Unterschied zu vielen in dem Metier nicht unter dem Druck, mit Hörbüchern meinen Lebensunterhalt einzuspielen.

Der digitale Ozean

Trotzdem wäre es völlig naiv, die Welle zu ignorieren, die derzeit wie ein Tsunami über den riesigen digitalen Ozean auf uns zurollt. KI wird viele von uns plattmachen. Auch wenn, wie etwa eine private Umfrage in einer Facebook-Gruppe zeigt, deren 4.400 Mitglieder sich intensiv für Hörbücher interessieren, aktuell noch eine völlig andere Wahrnehmung vorherrscht: „KI wird mir niemals einen echten Sprecher ersetzen.

„Ob Hörbuch oder Buch, wenn draufstehen wird ‚KI‘, werde ich diese nicht nehmen“, lautet die durchgängige Haltung. Angereichert mit Gelübden wie „Ich zahle und höre nichts mit KI-Sprecher“ und Parolen wie „KI kann einen wahren Sprecher niemals ersetzen. Das klingt kalt. Die Hörer merken das.“ Ich sag mal: In Gottes Ohr. Man sollte trotz solcher Einschätzungen davon ausgehen, dass für unsereins eine ziemlich gespenstische Zeit angebrochen ist.

Schauspielergewerkschaften in den USA oder Fachverbände wie der Verband Deutscher Spre­che­r:in­nen e. V. (VDS) in Deutschland fahren berechtigterweise apokalyptische Kampagnen. Sie haben erkannt, „dass menschliche Stimmen durch KI-generierte Stimmen, denen es an Empathie, emotionaler Tiefe und kulturellem Kontext fehlt, ersetzt werden“, wie der VDS schreibt.

Wobei man der Genauigkeit halber darauf hinweisen sollte, dass es im Unterschied zur Vergangenheit nicht mehr um die Perfektionierung von „künstlichen Stimmen von Robotern“ geht, wie lautstark rebellierende deutsche Synchronsprecher die Entwicklung zuletzt charakterisierten.

Die Entwicklung ist viel perfider. Die weitgehend perfektio­nierte Sprecher-KI von heute nutzt und kopiert echte Profis und nimmt bei stundenlangen Arbeitsproben deren differenzierte Artikulationsmodalitäten auf. Und der Fundus wird nicht kleiner, sondern wächst rapide. Wenn die FAZ recht behält, die vor ein paar Monaten vermeldete, dass künstliche Intelligenz „schon jetzt täuschend echte Klone menschlicher Stimmen“ produziert und „hilflose gesetzliche Regulierungsversuche mit erhobenem Zeigefinger“ zu spät kommen, können wir wohl einpacken.

Dann reduziert sich das Thema nur noch auf Urheberrechtsfragen: Gehört meine Stimme mir? Kann ich sie verkaufen oder vermieten? Kann ich Diebe und Betrüger verklagen? Sind die Nutzungsrechte so viel wert, dass es sich lohnt, sie zu verhökern? Welche Verwertungsgesellschaft kümmert sich um das Ganze? Die Frage nach der Transparenz wird bei Audible – bis jetzt noch – redlich gehandhabt. KI-Hörbücher kommen mit dem Etikett „Virtual Voice“ daher. Aber dass das so bleibt, mag man nicht glauben.

Geistesarbeiter zweiter Klasse

Die Strategie, die im Mai in einer Pressemitteilung angekündigt wurde, gab keine Zusicherungen, sondern verbreitete nur Floskeln. KI sei die „große Chance, die Verfügbarkeit von Hörbüchern zu erweitern“, erklärte Audible-CEO Bob Carrigan. „Wir werden in der Lage sein, mehr Geschichten zum Leben zu erwecken.“ Gut für Autoren. Gut für die Umsätze von Audible und die Mutterfirma Amazon. Schlecht auf jeden Fall für Übersetzer, die schon seit mehr als einem halben Jahrhundert als Geistesarbeiter zweiter Klasse behandelt werden und in diesem System ebenfalls von Maschinen ersetzt werden.

Und sicher auch schlecht für Sprecher. Wir sind nur ein weiteres schwaches Glied in jener Techno-Kette, in der die Merkantilisierung der Kreativität dazu dient, die Produktionsverhältnisse einer auf Massenumsätze ausgelegten globalen Kulturindustrie voranzutreiben. Geist und Ingenium? Originalität und Sinnlichkeit? Alles versinkt im Sumpf der totalen Simulation.

Eine der Abspielplattformen für Bücher aus dem KI-Universum ist übrigens Youtube, wie Nathalie de Ahna weiß, die vor fünf Jahren begann, ihren Kanal „Lie liest vor“ mit einem Katalog von über 500 urheberrechtsfreien Märchen zu bespielen. Aufnehmen, bearbeiten, hochladen – es war viel Arbeit. Aber sie begann sich dank wachsender Abonnentenzahlen und Werbeeinnahmen irgendwann auszuzahlen. „Wenn du gut bist und Ausdauer hast“, sagt sie, „dann kannst du davon leben.“

Auch wenn die Zielgruppe – Menschen mit Schlafstörungen, die sich gerne etwas vorlesen lassen, was „tatsächlich beruhigt und nicht nervt“ – keinen Cent für diesen Service bezahlen muss. Oder besser: Man konnte davon leben. Denn seit einem guten halben Jahr wächst die anonyme Konkurrenz. „Da kommen jede Woche neue Youtube-Kanäle dazu. Alles KI-Stimmen.“ Vor allem ein Anbieter namens „ElevenLabs“, gegründet vor drei Jahren in New York, hat sich zu einer gut geölten Maschine entwickelt. Denn die synthetisierten Stimmen können in jeder Weltsprache kichern, seufzen, hörbar atmen und eine Sprachmelodie abspulen, die wirklich sehr menschlich klingt.

Und so ist man längst auf dem Weg zum Marktführer und beliefert Spotify und Audible. Das hat die in der Nähe der holländischen Universitätsstadt Leiden lebende Nathalie de Ahna, die auf einem zweiten Kanal mit „Lies Kurzgeschichten“ inzwischen auch eigene Texte publiziert, auf die Idee gebracht, ihre Stimme von „ElevenLabs“ testweise klonen zu lassen. Ein Experiment, um abschätzen zu können, wie groß die Wahrscheinlichkeit ist, Menschen zu düpieren, die nicht begreifen, dass die anonymen Stimmen eine eigenartige Monotonie ausstrahlen.

Und die nur dann mit der Stirn runzeln, wenn die Aufnahmen klassische KI-Schnitzer enthalten: seltsam oder komplett falsch ausgesprochene Eigennamen und Zahlen. Die Sprecherin hat sich über die „seelenlose Kopie“ ihrer Stimme „furchtbar erschrocken“, sagt sie. „Am Anfang bist du fasziniert, aber nach einer Weile genervt, weil du selber denkst, ich mache das aber viel besser. Nämlich mit viel mehr Seele dahinter.“ Aber fällt so etwas Nutzern aus, die auf der Suche nach kostenlosem Stoff sind?

Markt für Hörbücher wächst

De Ahna hat sich im nächsten Schritt bewusst dagegen entschieden, ihre Stimme zu verkaufen. Sie wurde allerdings seitdem bereits von einer Firma angefragt, ob sie so etwas machen würde. „Ich habe mir den Vertrag zuschicken und bewusst von einer KI kontrollieren lassen. Die hat gemeint, um Gottes Willen, mach das bloß nicht. Du verkaufst Rechte an allem und für immer. Du kannst das niemals zurückdrehen.“ Heroischer Idealismus hin oder her: Zurückdrehen konnte schon Don Quijote nichts.

Übrigens: Der Umsatz mit Hörbüchern steigt beharrlich, sowohl bei Download-Anbietern wie Audible als auch bei Streaming-Plattformen wie Storytel. Die jüngste Marktanalyse von Media Control aus dem letzten Oktober bestätigte den Trend. Die Zuwachsrate gegenüber 2023 lag bei 6 Prozentpunkten, das entspricht dem gesamten Marktanteil von CDs alleine.

Ich habe übrigens nicht vor, meine Stimme klonen zu lassen. Solange es Autoren und Verlage gibt, die sich gegen die Entfremdung stemmen, gilt für diese Arbeit dasselbe, was auch in anderen Wirtschaftszweigen seit Beginn der Industrialisierung von Kreativen und Kunsthandwerkern aller Art praktiziert wurde.

Man kann sich diesem Meer aus lauter Massenware entgegenstemmen. Aber es braucht dazu ein Publikum, das genau das zu schätzen weiß. Wie groß das ist, wird sich schon bald ­zeigen.

taz lesen kann jede:r

Als Genossenschaft gehören wir unseren Leser:innen. Und unser Journalismus ist nicht nur 100 % konzernfrei, sondern auch kostenfrei zugänglich. Texte, die es nicht allen recht machen und Stimmen, die man woanders nicht hört – immer aus Überzeugung und hier auf taz.de ohne Paywall. Unsere Leser:innen müssen nichts bezahlen, wissen aber, dass guter, kritischer Journalismus nicht aus dem Nichts entsteht. Dafür sind wir sehr dankbar. Damit wir auch morgen noch unseren Journalismus machen können, brauchen wir mehr Unterstützung. Unser nächstes Ziel: 50.000 – und mit Ihrer Beteiligung können wir es schaffen. Setzen Sie ein Zeichen für die taz und für die Zukunft unseres Journalismus. Mit nur 5,- Euro sind Sie dabei! Jetzt unterstützen

Mehr zum Thema

9 Kommentare

 / 
  • Ich verstehe die berechtigte Sorge und auch wenn es nur eine Momentaufnahme ist, so kann ich zumindest aktuelle Befürchtungen zerstreuen. Hatte letztens das zweifelhafte Vergnügen, ein KI eingelesenes Hörbuch zu konsumieren, bei dem sich die KI erst später entpuppte, denn vorgestellt wurde es von einem bekannten Audioverlag mit der menschlichen Stimme eines bekannten Hörbuchsprechers, das sich aber von Kapitel zu Kapitel als akustische Herausforderung enthüllte. Unabhängig von dem bereits genannten Mankos der völligen Tonlosigkeit und des fehlenden Gefühls bis hin zu falschen Betonungen oder eigenwilliger Widergabe von Eigennamen, trumpfte diese Hörbuch mit streckenweisem Switch ins Japanische oder Französische auf, um dann die Geschwindigkeit zu drosseln oder zu potenzieren. Da sich dann noch nicht mal Zeit genommen wird, den von KI produzierten Quark auf Haltbarkeit zu prüfen werden die Hörer*Innen wohl vorerst ausbleiben.

  • Unvorstellbar, dass KI im Stil und mit Stimme Harry Rowohlts Gedichte von Ringelnatz „liest“.

    Hier das Original:

    m.youtube.com/watc...kgcm93b2hsdA%3D%3D

  • Was bei der Diskussion um 'schrecklich' Künstliche Stimmen gerne vergessen wird ist der Gewöhnungseffekt. Eine Entwicklung die wir mit Medien schon öfter erlebt haben, besonders Audio in Rundfunk und später Fernsehen. Sender haben sich auf einen Dialekt festgelegt, Hochdeutsch mit norddeutscher Aussprache hierzulande, BBC-Englisch in England und Midwestern in den USA. Und überall gab es Anfangs lautstarken Protest gegen diese 'unpassende' Sprachvarietät, nach und nach wurde aber genau das zu Standardsprache in den jeweiligen Ländern.

    Das ganze potenziert sich mit dem Einsatz von KI zur Erstellung eben der Texte die KI-Stimmen dann vortragen. So wie beim Vortragen ist auch bei der Erstellung eine immer einfachere Struktur und Aufbereitung zu sehen. Zusammen ist das eine nachhaltiger Veränderung als jede andere Maßnahme.

    Die Zukunft der Sprache wird nicht davon bestimmt ob wir *innen sagen oder andere Wörter, sondern von einer stetigen Anpassung an die Sprache der KI.

  • "Die Bahnhofsansagen der Deutsche Bahn spricht ab diesem Jahr die synthetische Stimme "Heiko". Doch auch die hat einen realen Sprecher, der bekannt vorkommt."



    2020 bei sueddeutsche.de



    Weiter dort:



    "Normalerweise arbeitet Grauel für Hörbücher oder Werbefilme. Die Bahnhofsansagen sind auch für ihn etwas Neues, denn auf dem Bahnsteig wird nicht seine natürliche Stimme zu hören sein. Die Durchsagen werden stattdessen von einer Software erzeugt. Grauels Worte werden dafür in einzelne Laute und Silben zerlegt und können anschließend zu beliebigen Sätzen zusammenbaut werden. Sprachassistenten wie Siri und Alexa nutzen ein ähnliches System. Der Synchronsprecher wird so zum Zulieferer eines Computerprogramms."



    Aber es gibt Texte, die sind nichts für KI:



    In memoriam, eine große Stimme:



    www.wz.de/nrw/dues...hardt_aid-31678713



    Lutz Görner, ein Meister der Rezitation ist leider nicht mehr unter uns.

  • Ich denke wir müssen uns zu dem Thema KI genau überlegen, wie wir als Gesellschaft damit umgehen möchten.

    Geld / Arbeitsplätze einsparen und den Profit maximieren, sollte meiner Meinung nach nicht das erste Ziel der Unternehmen bleiben.

    Es sollte wichtiger sein, möglichst vielen Menschen einen fair bezahlten Arbeitsplatz zu bieten – der natürlich auch Zusammenarbeit mit KI beinhaltet, weil die Paste ist aus der Tube.

    Es muss aufgepasst werden, dass Menschen nicht in die Arbeitslosigkeit geschickt werden -- besser wäre, KI zu nutzen um die drei-Tage-Woche bei gleicher Bezahlung einzuführen oder so.

    Nicht die Produktivität erhöhen, sondern die Arbeitszeit herunterskalieren und die Lebensqualität sowie die Umwltverträglichkeit verbessern.

    Wir sind an einem Punkt angekommen, wo wir nicht "mehr" brauchen, nicht produktiver sein müssen, sondern einfach schauen sollten, dass es allen Menschen gut geht und wir vernünftig mit den vorhandenen Ressourcen arbeiten, sodass jede*r Spaß am Leben hat.

    • @Leslie Gurkensalat:

      Stimme dem zu, nur leider sind die politischen Vorzeichen u. Tendenzen nicht nur in Deutschland, sondern weltweit völlig anders, sogar meist gegenteilig☹️

      Man betrachte doch nur unseren neuen Kanzler und seine Scharfmacher Linneman, Frei & Co

      Dort kommt die Forderung mehr zu arbeiten, das wo in Deutschland die Anzahl der Arbeitsstunden auf einem historischen Höchststand ist

      Die Gesellschaft soll (noch zusätzlich) entsolidarisiert werden, denen, die zb durch KI, ihre Arbeit verlieren, sollen dann in der "Grundsicherung" existenzielle Leistungen gekürzt werden (zb Mieten in Großstädten) so dass deren Binnen-Migration zu befürchten ist



      (dann wahrscheinlich in Gebiete, wo Arbeitsplätze noch schwerer zu finden sein dürften)

      Die Rolle und der Einfluß von Gewerkschaften ist rückläufig (zb durch eine CDU Politik und entsprechender Gesetze) und in den Betrieben wird die neue Technik zunehmend dazu genutzt um die Mitarbeiter und deren Leistung zu erfassen und auch zu reglementieren

      Diese Überwachung, s. China, wird sich voraussichtlich nicht nur auf das berufliche beschränken, sondern bald den gesamten Lebensbereich erfassen u. damit mit KI den Druck zur Gleichschaltung erhöhen 👎

  • Sehr wichtiges Thema, auch gerade über diesen engen Arbeitsbereich hinaus, und eines was sicher vielen Menschen die in dem Metier arbeiten und davon leben, Angst machen dürfte..

    "KI-generierte Stimmen, denen es an Empathie, emotionaler Tiefe und kulturellem Kontext fehlt"

    Das ist zumindest jetzt noch der Fall, und ich weiß auch nicht, ob zukünftig eine KI zudem noch die Dramatik, die Texten und Erzählungen innewohnen, werden adäquat wiedergeben können... ❓

    Vermutlich schon, und vermutlich wird man auch deren Kommerziellen Verbreitung nicht verhindern können.

    Das Verbraucher sich gegen KI wehren, wird mE auch nur ein vorübergehendes Phänomen sein, es dürfte auch zunehmend schwerer werden, diese überhaupt noch als solche zu erkennen.

    Immerhin gibt es eine Petition dazu, die die KI in Grenzen verweisen soll, darf man ja hier nicht verlinken...

    mE ist ein Ausweg, statt Hörbücher Hörspiele zu produzieren, also mit verschiedenen Sprechern, Dialogen, Geräuschkulisse, Musikuntermalung,.. Die machen auch echt sehr viel Spaß beim Anhören und da wird hoffentlich die KI noch ein paar Jahrzehnte brauchen, bis sie auch dies nach entsprechenden Vorgaben selbst machen kann..

    • @ Orab:

      ""KI-generierte Stimmen, denen es an Empathie, emotionaler Tiefe und kulturellem Kontext fehlt"". Wobei der Autor je selber schreibt, dass er kein Spitzensprecher für aufwendige Produktionen ist, sondern esoterische Ratgeber vorliest. Man sollte es realistisch sehen - manche Jobs werden wegbrechen, weil ein Mensch sie einfach nicht mehr selbst zu einem Hungerlohn wettbewerbsfähig machen kann. Aber das betraf historisch gesehen wohl die größte Masse der menschlichen Tätigkeiten - angefangen bei Viehhirten mit Gerte und Bauern mit Feldhacke. Und diesen Jobs weint man auch nicht hinterher.

      • @TheBox:

        Es gibt hervorragende Sprecher/innen die Hörbücher einsprechen und zudem oft auch Schauspieler sind und das nebenbei machen.

        Diese Leute sind als Selbständige sowas wie Saison Arbeiter und müssen zb die Zwischenzeit zw größeren Engagements eben mit kleineren Sprecher Jobs überbrücken

        D. h., wenn diese wegfallen, kann das Finanzierungsmodell zusammen brechen❗

        Viele auch bekannte Schauspieler haben zwischendurch auch Bürgergeld beziehen müssen, wo der Zugang & die Leistungen jetzt durch Konservative, und nach Hetzkampangnen wieder von Springer, gekürzt werden sollen, dies auch noch Mehrheitlich befürwortet i.d. Gesellschaft👎

        Das ist also keine Lappalie wenn d.KI solche Berufe zerstört, sondern hat kulturelle und individuelle Auswirkungen👎

        "Und diesen Jobs weint man auch nicht hinterher"

        Hinter jedem dieser Jobs steht ein MENSCH, dem dies was bedeutet, sei es nur ein finanzielles Auskommen❗

        Ihre Aussage dazu ist schon sehr zynisch👎

        Zudem, durch das Internet, "soz."Medien, KI, befinden wir uns in einer neuen industriellen Revolution die Opfer hinterlässt, werden die nicht solidarisch getragen, bedroht dies nicht nur Einzelne, sondern das System, d. Demokratie und uns alle❗