piwik no script img

Studie der Musikhochschule HannoverDer KI doch überlegen

Forschende verglichen die Kompositionsfähigkeiten von künstlicher Intelligenz mit denen von Menschen. Das Ergebnis: Die KI ist nicht sonderlich musikalisch.

Hätte eine KI nicht besser hingekriegt: Notenblatt von Ludwig van Beethoven Foto: dpa | Fredrik Von Erichsen

Hamburg taz | Die Fähigkeiten der Künstlichen Intelligenz erscheinen uns oft grenzenlos: Mathematische Probleme lösen, Abschlussarbeiten schreiben, täuschend echtes Bildmaterial animieren. Das sind nur einige der prominenten Aufgaben, die KI bewältigt und dabei Menschen mit ihrer Qualität verblüfft – oder auch verängstigt.

Doch natürlich hängt KI menschlichen Fähigkeiten auch in unzähligen Bereichen noch hinterher. Wie zum Beispiel beim Komponieren von Musik. Das hat eine Studie der Musikhochschule Hannover gezeigt.

Für das Experiment, auf dem die Studie basiert, sollten Kompositions-Studierende und andererseits der KI-Chatbot ChatGPT sowie die Software „Google Magenta Studio“ vier Takte der Melodie eines unbekannten Musikstücks fortführen. Dabei gab es Auflagen wie den Tonumfang und kreative Stilmittel, die eingesetzt werden sollten. Die Ergebnisse der KI und der Studierenden wurden anonymisiert und von weiteren Teilnehmenden bewertet. Dabei spielten Kriterien wie „Gefallen“, „Interessantheit“, oder auch „logisch und sinnvoll“ eine Rolle.

Die Ergebnisse zeigten, dass die Qualität der KI-Kompositionen in allen vier Zielvariablen weit unter der von Menschen gemachten lag. Mit nur wenigen Ausnahmen hätten die KI-Melodien „unlogisch und fremd“ geklungen, heißt es in der Studie. Bei den KI-Melodien wurde kein „Effekt der musikalischen Erfahrung“ beobachtet. Sogar musikalisch unerfahrene Zuhörer hätten die von der KI generierten Versionen schlechter bewertet, heißt es.

Konzerne wie Microsoft und Open AI versuchen derzeit, ganze Musikverlage zu kaufen, um KI mit mehr Notenmaterial trainieren zu können

Dem Leiter der Studie, Reinhard Kopiez, zufolge waren die Forschenden erstaunt darüber, dass die von Menschen gemachten Kompositionen deutlich besser bewertet wurden. Kopiez sagt, er habe eine Art positives Vorurteil gehabt. „Meine Sicht auf KI-Systeme war damals entsprechend dem allgemeinen Hype in der Überbewertung von LLMs wie ChatGPT so, dass ich den Systemen eine Art umfassendes Weltwissen zugeschrieben hätte.“

Large Language Models, kurz LLMs, sind KI-Anwendungen, die speziell zur Erzeugung textbasierter Inhalte entwickelt wurden. Die Studie sei davon ausgegangen, dass KI und Mensch auch bei kreativen Aufgaben „zumindest auf Augenhöhe“ agieren würden.

Das deutliche Ergebnis war also überraschend. Es ließ sich aber erklären: Die Fähigkeiten von KI basieren darauf, womit sie „trainiert“ werden, das heißt, auf welches Datenrepertoire an Musik sie zugreifen können. Das Trainingsmaterial für KI ist derzeit noch begrenzt.

Große Anbieter wie Microsoft und Open AI versuchen aktuell, ganze Musikverlage zu kaufen, um KI mit mehr Notenmaterial trainieren zu können. Bei diesen Verhandlungen geht es um viel Geld und um Urheberrechte kreativer Komponist*innen. Auch die Gema ist involviert.

Wenig Trainingsmaterial

Kopiez bewertet diese Versuche als „in die richtige Richtung“ gehend, zweifelt aber an der urheberrechtlichen Zulässigkeit. „Die Rechteinhaber sehen das jedenfalls sehr skeptisch, und meines Wissens gibt es auch noch keinen abgeschlossenen Deal mit einem Musikverlag“, sagt er.

Nach dem Experiment der Studie bezweifelt er aber auch, dass mehr Trainingsmaterial die KI-Ergebnisse verbessert. „Vielmehr scheint den existierenden LLMs eine Art von ‚Wissen‘ über Harmonik oder Tonalität zu fehlen, was etwa die Zahl sinnvoller Melodiefortsetzungen deutlich reduziert“, erklärt er.

Außerdem erschöpfe sich das Wissen über tonale Zusammenhänge nicht in der Aufeinanderfolge von Akkorden. Kopiez sagt, dies könne man als „tonale Kurzsichtigkeit“ bezeichnen. Es gehe vielmehr um die zeitlich ausgedehntere Beziehung zwischen tonalen Zentren und tonaler Peripherie. „Das erlernen wir Menschen auch erst durch jahrelanges Musikhören“, erklärt er.

Bessere KI würde Jobs obsolet machen

Wie gut und wie schnell sich die Kompositionsfähigkeiten von Künstlicher Intelligenz ändern, hängt also einerseits davon ab, womit sie trainiert werden können. Es gibt jedoch noch weitere Faktoren. Das Experiment wurde mit mehreren KI-Versionen wiederholt, und die Musik-Studierenden schnitten trotzdem wieder deutlich besser ab. Das unterstreicht Kopiez’ Beobachtungen, dass es nicht nur am Trainingsmaterial liegt, dass die KI-Kompositionen den menschlichen unterlagen. Sie kommen an den kompositorischen Schaffensprozess als etwas Menschliches nicht heran.

Laut Kopiez würde eine deutliche Verbesserung von KI-Kompositionsfähigkeiten langfristig bedeuten, dass Aufgaben für Menschen, also Kom­po­nis­t*in­nen, wegfallen – das Komponieren von Hintergrundmusik für Filmdokumentationen zum Beispiel.

Manche Aufgaben seien bereits Musik-KIs „zum Opfer gefallen“, sagt Kopiez. „Wenn man die Musik mit anderen KI-generierten Produkten wie Journalismus oder Animationsfilmen vergleicht, liegt die Annahme nahe, dass man sich mit dieser Art von Standard auch in der Musik zufrieden geben wird, weil man so etwas häufig gehört hat.“

taz lesen kann jede:r

Als Genossenschaft gehören wir unseren Leser:innen. Und unser Journalismus ist nicht nur 100 % konzernfrei, sondern auch kostenfrei zugänglich. Texte, die es nicht allen recht machen und Stimmen, die man woanders nicht hört – immer aus Überzeugung und hier auf taz.de ohne Paywall. Unsere Leser:innen müssen nichts bezahlen, wissen aber, dass guter, kritischer Journalismus nicht aus dem Nichts entsteht. Dafür sind wir sehr dankbar. Damit wir auch morgen noch unseren Journalismus machen können, brauchen wir mehr Unterstützung. Unser nächstes Ziel: 50.000 – und mit Ihrer Beteiligung können wir es schaffen. Setzen Sie ein Zeichen für die taz und für die Zukunft unseres Journalismus. Mit nur 5,- Euro sind Sie dabei! Jetzt unterstützen

Mehr zum Thema

18 Kommentare

 / 
  • Der Großteil aller Künstler die Standardprogramm machen werden ersetzt durch KI völlig egal ob Grafikdesign, Musik oder Filme.

    • @Machiavelli:

      So - der Ablauf spätestens bereits seit der Steinzeit! Newahr



      Mein Mitschüler Freund & “guter Geist der Steinzeit - zeigte es mir am Beispiel der 🪓 🪓



      “Das Steinbeil von den …? - was besseres gab es nicht! Aber hier - dieselben Durchschnittsware! Vermutlich von Lehrlingen gefertigt! Weil - Übergang zur Bronzezeit!



      Und hier - spitzenmäßig - die Profis waren umgestiegen - wieder Spitze!



      Die Durchschnittsware - fertigten andere Völker quasi in Litenz!



      Noch krasser der so beliebte wie begehrte Goldschmuck - Fibeln Spangen etc.



      Auf die Fertigkeit & das Gewinnen des Materials verstanden sich wenige!



      Die Motive aber fanden weite Verbreitung!



      Und! Wurden mittls billiger Materialen & grob kopiert ua zB von zwei Völkern im heutigen Baltikum hergestellt & vertrieben!“



      “Also sone Art früher Woolworth?!“



      “Kann man so sagen!“

      kurz - Kreativität - geht halt anders! Wollnich

      • @Lowandorder:

        Mein lieblingsbeispiel sind die Ulfberth schwerter, erste Markenname Europas.

        • @Machiavelli:

          Huch - he techné /



          Hier sollte der obige Beitrag hin! Woll



          Na logo! Bitte ändern



          Dank im Voraus

        • @Machiavelli:

          Tja Harm ist Steinzeitspezialist & so:



          “Als Schöninger Speere werden neun hölzerne Wurfspeere und eine ursprünglich als Speer angesehene Stoßlanze aus Holz bezeichnet, die aus der Altsteinzeit stammen. Sie wurden zwischen 1994 und 1998 am Rande von Schöningen in Niedersachsen auf einer archäologischen Ausgrabungsstätte im Tagebau Schöningen gemeinsam mit weiteren Stein- und Holzartefakten, wie einem beidseitig angespitzten Stab und dem Wurfstock von Schöningen, entdeckt. Absolute Datierungsverfahren ergaben ein Alter der Funde von 290.000 bis 337.000 Jahren.…



          In ihren Wurfeigenschaften sind die Schöninger Holzspeere modernen Wettkampfspeeren ebenbürtig. Bei Tests konnten Sportler originalgetreue Nachbauten bis zu 70 Meter weit werfen.



          Forscher des University College London stellten nach Würfen von Nachbauten durch trainierte Athleten fest, dass Speerwürfe auf 20 Meter für Großwild tödlich waren…“ & dabei 🐎🐎 Funde!



          de.wikipedia.org/w...C3%B6ninger_Speere



          “Kann nur kurz bleiben - weil mit den Speeren “Schießübungen“ Uni H gemacht werden!“ “Hast dich so rausgeputzt & mit dem Speer Wollmammuts hast du mir doch erzählt!“ “Pferde sind keine Wollmammuts!“ • Harm halt - 🙀🧐

  • "Forschende verglichen die Kompositionsfähigkeiten von künstlicher Intelligenz mit denen von Menschen. Das Ergebnis: Die KI ist nicht sonderlich musikalisch."

    Noch.

  • „Nicht alles ist als Satire hinnehmbar und Herr [...] offenbar mit KI [...] überfordert."



    (Leserbrief in der NOZ von heute. Wat höbt wi lacht. )

  • Diese Studie hat eine Halbwertszeit, die in Monaten gemessen wird, und hinterlässt den Eindruck ängstlicher Selbstbeweihräucherung der Fähigkeiten "echter" menschlicher Komponisten. Solche Aufgaben sind überhaupt erst seit zwei oder drei Jahren mit allgemeinen KI-Systemen behandelbar, und diese wurden absolut nicht für den untersuchten Einsatzzweck trainiert., sondern das Feld wurde nur indirekt aus Texten mit gelernt. Ich vermute, in fünf Jahren wird die KI dem Professor detailliert darlegen können, warum seine eigenen Kompositionen nichts taugen und gegenüber dem Stand der Technik maschinengenerierter Komposition krass abfallen.

  • Der Mensch, der diese Studie durchgeführt hat, scheint gleich zweimal auf seine Vorurteile hereingefallen zu sein.



    Zuerst dachte er: Wenn die KI schon Texte schreiben kann, dann muss sie auch im Komponieren schon genauso gut sein.



    Tja, falsch gedacht, Komponieren wurde der KI nicht beigebracht.



    Jaa, dann wird KI das auch niemals können!

    Irgendwie lustig, wie schnell man in seiner Meinung von einem Extrem ins andere fallen kann, obwohl beide Male die Grundlage für die Festigkeit der Meinung fehlt.

    Dass eine KI auf einem Gebiet, für das sie nicht trainiert wurde, schlecht abschneidet, ist im System der KI angelegt. Das kann keinen KI-Experten wundern.

    Daraus zu schließen, dass die gleiche KI auf diesem Gebiet auch mit Training keine Chance hat, gute Leistungen zu erreichen, zeugt von einer gewissen Arroganz den eigenen Fähigkeiten gegenüber.

  • Ich finde es schon erschreckend, wie gut das teilweise ist, was suno produziert.

  • Hätte KI so etwas komponiert?

    youtu.be/I421cLQ4N...i=IJOGkdZqDRg6QYdW

    Wohl nicht, einzigartig und eindrucksvoll.



    Hörenswert!



    Gerade in diesen Zeiten.

  • Die verwendeten Musik KI Tools sind leider nicht ansatzweise State of the Art.



    Wenn man die jetzigen Versionen von Loudly, Suno oder Udio nutzen würde sähe das Ergebnis wahrscheinlich mit etwas kuratieren anders aus.



    Das sind wirklich starke kreativ Tools die Musikern dabei helfen können noch bessere Songs zu schreiben.



    Loudly wird aber leider eine Menge Musiker im Bereich Vertonung arbeitslos machen. Die Qualität ist mehr als beeindruckend.

    Meine Meinung als studierter Musiker.

  • Ach was! Vagel Bülow

    “Studie der Musikhochschule Hannover



    Der KI doch überlegen



    Forschende verglichen die Kompositionsfähigkeiten von künstlicher Intelligenz mit denen von Menschen. Das Ergebnis: Die KI ist nicht sonderlich musikalisch.“

    Wen wunderts? Mich - Nicht! Woll



    Bin Multinstrumentslist - Bin seit den 90ern mit frei improvisierender Musik unterwegs & komme gerade von einnem einer open source Session & kann über den Befund nur lachen!



    Aus dem Skat - es ist x Jahre her Typ einer Kollegin hatte sich der Rechner“kreativierten“ Musik verschrieben - eine eigene Harmonielehre entwickelt usw usf! Woll



    Beeindruckt “spiel was vor davon!“



    Und dann - höflich dachte ich dabei nur:



    “Langweilig! Als wenn’s Kacheln scheißen!“



    ©️ Mozart wußte schon - was er sagte! Gell



    (Harry Mulisch hat mal ähnliches über derart zusammengeklempnerte Literatur gesagt!)



    Wie denn auch anders?



    KI - 🤖 - gibt es bekanntlich nicht •



    Eine Erfindung - um besser Forschungsmittel abgreifen zu konnen & Musik/Lit. etc kann a definitione nicht kreativer sein - als der dess programmirende •



    Alles gegenteilig behauptete - sorry - is a lie •

    • @Lowandorder:

      Die Kybernetische Intellenz wird ned den Jazz revolutionieren, keine Angst ;) .



      Wess ned; die Diskussion, ob Johann-Sebastian Inschenör war (Musik am Fließband konstruieren) oder Inschenöre Musik machen können, ist müßig.



      Publikumsbeschimpfung ist ansonsten entweder Teil der performance oder arrogant:



      Manche Aufgaben seien bereits Musik-KIs „zum Opfer gefallen“, sagt Kopiez. „Wenn man die Musik mit anderen KI-generierten Produkten wie Journalismus oder Animationsfilmen vergleicht, liegt die Annahme nahe, dass man sich mit dieser Art von Standard auch in der Musik zufrieden geben wird, weil man so etwas häufig gehört hat.“

      • @Hugo:

        Liggers. “Pappkartonmusik“ - gern mit 🕳️ 🕳️🕳️salat mp3 &!Ohrwurm -



        Ochottochott - löst ab den Holzwurm im Fagott! Soweit - zu spät



        Dieses Weichfraßmusik Überfluten!



        Hett allenfalls gar nur wenig - zedon mit Kreativität!



        & dazu



        “Kann ein E-Piano oder Digitalpiano klingen wie ein Echtes? Die Hersteller sagen »Ja«, wir sagen »Jein«.



        Quelle: delamar



        www.delamar.de/dig...piano-klang-45886/



        &



        “Dös mußt kaafen! Dös hat der Gerry Mulligan g’spoilt. Dess is dess Soloinstrument!“ Hans Koller im tiefsten Roth-Händle wienerisch!



        Yes. I do.



        & Däh



        “Geil! Was ein Sound! Kann ich das sampeln?“



        “Wie soll das gehn? Dissy hat mal zur 🎺 gesagt 'Was ein Instrument!



        3 Ventile - 1Million Töne!‘ & das kannste dir für dis Conn B-flat nochmals hochrechnen!“



        Was nicht verkennt - daß e-Instrumente 🎸🎹 etc sich ihren eigenen Klangraum erobert, den bestehenden erweitert haben! But



        “Bitte gehen Sie auf Start! Daran ändert das nix! Weil es KI 🤖 nicht gibt & zudem nicht jeder Programmierer ein Beethoven ist!



        Kleiner Klecks aus dem Skat als Schlagobers!;)) Mein Onkel - Heldentenor Kammersänger -



        “eine Stimme die um die Welt ging“ 1963/64



        “Die Beatles? So genial wie Beethoven“ •

        • @Lowandorder:

          Holy Gosh - Dizzy - 🎺 -



          (hat ja btw mal seinem Bandleader - Cap Callowy (?) - n 🔪 in den Bauch gerammt - ganz ohne 🤖!;)



          Aber als ich ihn mit gut 70 in der Philharmonie erlebte - die scheißen junge Band hatte sich gut warm gespielt - wurde mir der Spruch begreiflich “Hätte auch Tänzer werden können!“ & setzte das Horn an & …die Welt war verzaubert. 🙀 -



          (btw den Ventile-Spruch setzte er ihm NBC-Interview eins drauf - auf die Frage ”From where comes the power?“ - “From the asshole!“



          Is ja richtig - aber at home husband was‘nt amused • ;)) - Dizzy halt 🎺 🥳

          • @Lowandorder:

            Die Brobblemaadigg ist ned des "livespielen" oder die Frage, ob Bob Dylan mit E-Gitarre kein Folkie mer ist, sondern daß der von mir zitierte Studienleiter quasi die ersten paar Töne von "Für Elise" vorgegeben hat und dann daraus was gebastelt werden sollte. (Der KI würde natürlich die Elise ned bekannt sein; schwierige Geschichte heutzutage*lol*.) Und lt. geschätzten Mitkommentator*innen ist die Versuchsanordnung ungefähr so, als spielte Garry Kasparow ned gegen Deep Blue sondern gegen nen Schachcomputer von 1987.



            Ich geh heut zu dem:



            www.youtube.com/watch?v=Q9OSMRNU9Z8



            Da iss des Orschinol des: www.youtube.com/watch?v=XVeihRpSPZA



            und mindestens die: www.youtube.com/watch?v=_GHSMqPC0Cg und die: www.youtube.com/watch?v=11CNgZJMZt8 ham des auch im Repertoire.

  • Google Magenta Studio sagt mir nichts, aber ChatGPT 3.5 ist bei der derzeitigen rasanten Weiterentwicklung schon praktisch Steinzeit. Der Sprung bei der Qualität generierter Texte ist schon zu GPT 4 erheblich. Mal abgesehen davon, dass erst GPT 4 multimodal ist, also überhaupt erst Audio "versteht". Dieses bzw. davon abgeleitete Modelle wäre also deutlich interessantere Testkandidaten. Mit GPT 4.5 ist auch schon das nächste Basismodell in den Startlöchern. Ich denke, der qualitative Vorsprung von menschlichen Komponisten wird recht schnell dahinschmelzen.