: KI-Melodien klingen „unlogisch“ und „fremd“
Forschende der Musikhochschule Hannover verglichen die Kompositionsfähigkeiten von KI mit denen von Musik-Studierenden. Dabei schnitt KI deutlich schlechter ab
Von Emmy Thume
Die Fähigkeiten der Künstlichen Intelligenz erscheinen uns oft grenzenlos: Mathematische Probleme lösen, Abschlussarbeiten schreiben, täuschend echtes Bildmaterial animieren. Das sind nur einige der prominenten Aufgaben, die KI bewältigt und dabei Menschen mit ihrer Qualität verblüfft – oder auch verängstigt.
Doch natürlich hängt KI menschlichen Fähigkeiten auch in unzähligen Bereichen noch hinterher. Wie zum Beispiel beim Komponieren von Musik. Das hat eine Studie der Musikhochschule Hannover im vergangenen Jahr gezeigt.
Für das Experiment, auf dem die Studie basiert, sollten Kompositions-Studierende und andererseits der KI-Chatbot ChatGPT sowie die Software „Google Magenta Studio“ vier Takte der Melodie eines unbekannten Musikstücks fortführen. Dabei gab es Auflagen wie den Tonumfang und kreative Stilmittel, die eingesetzt werden sollten. Die Ergebnisse der KI und der Studierenden wurden anonymisiert und von weiteren Teilnehmenden bewertet. Dabei spielten Kriterien wie „Gefallen“, „Interessantheit“, oder auch „logisch und sinnvoll“ eine Rolle.
Die Ergebnisse zeigten, dass die Qualität der KI-Kompositionen in allen vier Zielvariablen weit unter der von Menschen gemachten lag. Mit nur wenigen Ausnahmen hätten die KI-Melodien „unlogisch und fremd“ geklungen, heißt es in der Studie. Bei den KI-Melodien wurde kein „Effekt der musikalischen Erfahrung“ beobachtet. Sogar musikalisch unerfahrene Zuhörer hätten die von der KI generierten Versionen schlechter bewertet, heißt es.
Dem Leiter der Studie, Reinhard Kopiez, zufolge waren die Forschenden erstaunt darüber, dass die von Menschen gemachten Kompositionen deutlich besser bewertet wurden. Kopiez sagt, er habe eine Art positives Vorurteil gehabt. „Meine Sicht auf KI-Systeme war damals entsprechend dem allgemeinen Hype in der Überbewertung von LLMs wie ChatGPT so, dass ich den Systemen eine Art umfassendes Weltwissen zugeschrieben hätte.“ Large Language Models, kurz LLMs, sind KI-Anwendungen, die speziell zur Erzeugung textbasierter Inhalte entwickelt wurden. Die Studie sei davon ausgegangen, dass KI und Mensch auch bei kreativen Aufgaben „zumindest auf Augenhöhe“ agieren würden.
Das deutliche Ergebnis war also überraschend. Es ließ sich aber erklären: Die Fähigkeiten von KI basieren darauf, womit sie „trainiert“ werden, das heißt, auf welches Datenrepertoire an Musik sie zugreifen können. Das Trainingsmaterial für KI ist derzeit noch begrenzt.
Große Anbieter wie Microsoft und Open AI versuchen aktuell, ganze Musikverlage zu kaufen, um KI mit mehr Notenmaterial trainieren zu können. Bei diesen Verhandlungen geht es um viel Geld und um Urheberrechte kreativer Komponist*innen. Auch die Gema ist involviert.
Kopiez bewertet diese Versuche als „in die richtige Richtung“ gehend, zweifelt aber an der urheberrechtlichen Zulässigkeit. „Die Rechteinhaber sehen das jedenfalls sehr skeptisch, und meines Wissens gibt es auch noch keinen abgeschlossenen Deal mit einem Musikverlag“, sagt er.
Nach dem Experiment der Studie bezweifelt er aber auch, dass mehr Trainingsmaterial die KI-Ergebnisse verbessert. „Vielmehr scheint den existierenden LLMs eine Art von ‚Wissen‘ über Harmonik oder Tonalität zu fehlen, was etwa die Zahl sinnvoller Melodiefortsetzungen deutlich reduziert“, erklärt er.
Außerdem erschöpfe sich das Wissen über tonale Zusammenhänge nicht in der Aufeinanderfolge von Akkorden. Kopiez sagt, dies könne man als „tonale Kurzsichtigkeit“ bezeichnen. Es gehe vielmehr um die zeitlich ausgedehntere Beziehung zwischen tonalen Zentren und tonaler Peripherie. „Das erlernen wir Menschen auch erst durch jahrelanges Musikhören“, erklärt er.
Wie gut und wie schnell sich die Kompositionsfähigkeiten von KI ändern, hängt also einerseits davon ab, womit sie trainiert werden können. Es gibt jedoch noch weitere Faktoren. Das Experiment wurde mit mehreren KI-Versionen wiederholt, und die Musik-Studierenden schnitten trotzdem wieder deutlich besser ab. Das unterstreicht Kopiez’ Beobachtungen, dass es nicht nur am Trainingsmaterial liegt, dass die KI-Kompositionen den menschlichen unterlagen. Sie kommen an den kompositorischen Schaffensprozess als etwas Menschliches nicht heran.
Laut Kopiez würde eine deutliche Verbesserung von KI-Kompositionsfähigkeiten langfristig bedeuten, dass Aufgaben für Menschen, also Komponist*innen, wegfallen – das Komponieren von Hintergrundmusik für Filmdokumentationen, zum Beispiel.
Manche Aufgaben seien bereits Musik-KIs „zum Opfer gefallen“, sagt Kopiez. „Wenn man die Musik mit anderen KI-generierten Produkten wie Journalismus oder Animationsfilmen vergleicht, liegt die Annahme nahe, dass man sich mit dieser Art von Standard auch in der Musik zufrieden geben wird, weil man so etwas häufig gehört hat.“
taz lesen kann jede:r
Als Genossenschaft gehören wir unseren Leser:innen. Und unser Journalismus ist nicht nur 100 % konzernfrei, sondern auch kostenfrei zugänglich. Texte, die es nicht allen recht machen und Stimmen, die man woanders nicht hört – immer aus Überzeugung und hier auf taz.de ohne Paywall. Unsere Leser:innen müssen nichts bezahlen, wissen aber, dass guter, kritischer Journalismus nicht aus dem Nichts entsteht. Dafür sind wir sehr dankbar. Damit wir auch morgen noch unseren Journalismus machen können, brauchen wir mehr Unterstützung. Unser nächstes Ziel: 50.000 – und mit Ihrer Beteiligung können wir es schaffen. Setzen Sie ein Zeichen für die taz und für die Zukunft unseres Journalismus. Mit nur 5,- Euro sind Sie dabei! Jetzt unterstützen