piwik no script img

Künstliche IntelligenzChatGPT wird dümmer

For­sche­r*in­nen der Stanford Universität und der UC Berkeley haben Antworten von ChatGPT untersucht. Ihre Erkenntnis: Das System schwächelt.

Laut einer Untersuchung: ChatGPT-Ergebnisse werden wohl nicht besser, sondern schlechter Foto: Friedrich Stark/imago

Berlin taz | Die Antworten der weltweit größten KI-Chatbots ChatGPT4 und ChatGPT3.5 verschlechtern sich im Laufe der Zeit. Das zeigen For­sche­r*in­nen der Universität Stanford und der UC Berkeley. Vor allem im Rechnen und im Bereitstellen von Programmiercode schwächelt das System.

Die beiden Chatbots des US-Unternehmens OpenAI haben Künstliche Intelligenz für eine breite Gesellschaft erfahrbar gemacht. Das große Sprachmodell (LLM), auf dem ChatGPT basiert, wurde in einer Trainingsphase mit vielen Daten gefüttert. Auf Basis dieser Informationen kann der Chatbot neue Texte erstellen, die es so nie gegeben hat. Mit ChatGPT kann man Mails schreiben, Matheaufgaben lösen und Songs komponieren.

Aber das System ist offenbar fehleranfällig. Lingjiao Chen, Matei Zaharia und James Zou vom Fachbereich Computerwissenschaften der Stanford Universität und der UC Berkeley machten eine Bestandsaufnahme der Systeme. Dafür testeten sie die Version von ChatGPT4 und ChatGPT3.5 von März 2023 und verglichen sie mit den Ergebnissen von Juni 2023.

Sie stellten dem System verschiedene Aufgaben, sogenannte Prompts. Für die Studie sollte ChatGPT Rechenaufgaben lösen, sensible Fragen beantworten, Progammiercode erstellen und Bilder erkennen.

Unnötige Anführungszeichen

GPT4 – die kostenpflichtige Version des Textroboters – erzielte vor allem bei den Matheaufgaben ein viel schlechteres Ergebnis. Konnte der Bot im März noch mit einer Wahrscheinlichkeit von 97,6 Prozent erkennen, ob 17.077 eine Primzahl ist, gelang es im Juni nur noch in 2,4 Prozent der Fälle.

Beide Sprachmodelle hatten im Juni größere Schwierigkeiten bei der Formatierung von Code. So gaben sie etwa Antworten mit eingefügten Anführungszeichen, das den Code unlesbar machte. Die direkt ausführbaren Codegenerierungen von GPT-4 sanken auf 10 Prozent im Juni, während im März noch etwa jeder zweite Code ausgeführt werden konnte.

Nut­ze­r*in­nen verwenden ChatGPT auch dazu, Fragen zu beantworten. Der Algorithmus ist so trainiert, dass er auf sensible Fragen, wie etwa Informationen von Privatpersonen, keine direkten oder falschen Antwort gibt. ChatGPT4 gab im Zeitverlauf weniger inhaltliche Information auf solche Fragen preis, kürzte gleichzeitig aber auch die Erklärung, warum keine vollständige Antwort gegeben werden kann.

Da aber die kostenfreie Version GPT3.5 im Juni etwas häufiger Antworten auf sensible Fragen gab als im März, sehen die For­sche­r*in­nen hier Raum für Verbesserungen, um die Sprachmodelle robuster zu machen.

Prüfen erwünscht

Das Problem liege dabei in der Intransparenz der Systeme, so die Forscher*innen. Es sei momentan undurchsichtig, wann und wie die Sprachmodelle ein Update bekommen und wie diese das Verhalten der KI verändern.

Die Au­to­r*in­nen der Studie fordern deshalb auch Nut­ze­r*in­nen von KI-Chatbots auf, ähnliche Analysen durchzuführen. Man könne nicht darauf vertrauen, dass lernbasierte Sprachmodelle brauchbare Antworten produzieren, wenn sie das bei der Veröffentlichung auf Grundlage von Testdaten getan haben.

taz lesen kann jede:r

Als Genossenschaft gehören wir unseren Leser:innen. Und unser Journalismus ist nicht nur 100 % konzernfrei, sondern auch kostenfrei zugänglich. Texte, die es nicht allen recht machen und Stimmen, die man woanders nicht hört – immer aus Überzeugung und hier auf taz.de ohne Paywall. Unsere Leser:innen müssen nichts bezahlen, wissen aber, dass guter, kritischer Journalismus nicht aus dem Nichts entsteht. Dafür sind wir sehr dankbar. Damit wir auch morgen noch unseren Journalismus machen können, brauchen wir mehr Unterstützung. Unser nächstes Ziel: 40.000 – und mit Ihrer Beteiligung können wir es schaffen. Setzen Sie ein Zeichen für die taz und für die Zukunft unseres Journalismus. Mit nur 5,- Euro sind Sie dabei! Jetzt unterstützen

Mehr zum Thema

13 Kommentare

 / 
  • Vielleicht wird es einfach nur auf "dümmer" gestellt, denn Anfragen an das "System" sind ja nicht umsonst. Sie kosten schlicht Rechenzeit. Wer dann die "schlauen" Antworten haben will muss zahlen.

  • Das ist ein Riesenproblem. Das mit der Intranzparenz und den Updates.

    Mal vom Rechnen abgesehen. Eine KI der Zukunft gilt als "politisch neutral" - wie auch immer dieses Urteil zustande kommt. Nach einem Update ist diese das nicht mehr. Und vor der Wahl ist nach dem Update.

    Es gibt politische Forderungen nach der Transparenz. Das die Trainingsdaten jederzeit offen liegen müssen. Auf einer öffentlichen DB. Das bedeutet dann auch, dass nur Daten unter Open Source/Open Data Lizenzen genutzt werden dürfen.

  • Diese Beispiele wirken mir etwas künstlich und nicht unbedingt, was dem überwiegenden Anwendungsfall und -zweck gerecht wird, um nicht zu sagen, dass nicht zuletzt eine gewisse Unvorhersehbarkeit im Prinzip grad für einige der teils erstaunlichen Outputs mitverantwortlich sein dürfte. Jedenfalls da, wo mehr Kreativität erwartet wird oder erwünscht ist als beim Abarbeiten einfacher Rechenaufgaben, für die es m.E. eh bessere Instrumente gibt. Aufgefallen ist es aber glaub ich schon vielen und das nicht nur bei diesem Produkt, auch bei LLaMA und ich meine sogar mit der exakt gleichen Version. Und auch bei völlig identischen Prompts. Fast als hinge das auch etwas von der Tageszeit ab, Sonnenstand, Mondphase, Temperatur? Vielleicht ist der nächste Schritt dann, dass man auf auch astronomischer Skala nachrüstet mit Methoden der Memoziation und des Cachings: irgendwann sind alle Prompts durch, es gehen nur soviele Kombinationen. Dann baut man Speicherbänke bis in die Stratosphäre und wird nur noch abgerufen; das ohnehin Essenz wie Endpunkt jedweder Technologie: Abruf, ultra-effizientes Sortieren.

    Aber schließlich ist und bleibt dieser Ansatz nur des Menschen ultimative Selbstbespiegelung, eines milliardenfach gebrochenen Spiegels, ein kognitives Panoptikum und so wird es auch unsere Entwicklung, unser Verhalten notwendig immer nur nachvollziehen. Die Überschrift allein sollte noch nicht dazu verleiten, sich was einzubilden.

    www.dw.com/en/42-t...-dumber/a-64217283

  • 4G
    49732 (Profil gelöscht)

    Naja, KI ist ganz am Anfang. In 10 Jahren wird es besser klappen. Und Leute die irgendwas mit Medien studiert haben sind die dann die neuen Kohlekumpel und Bandarbeiter.

  • Ach, hört doch bitte auf, das Zeug "Intelligenz" zu nennen. Es sind Sprachmodelle. Large language models (LLM). Die können glaubwürdig schwätzen, aber ob das stimmt, was die sagen, das wissen nur die Göttinnen.

    Es klingt wie argumentiert. Es ist es nicht:

    Hier ein Zitat von so einem Ding: (die Frage war: 3×4×5=): "The calculation 345 is equal to 9 because 3 and 4 are both multiples of 5" [1]

    Soso. Weil 3 und 4 beide Vielfache von 5 sind. OK, es war nicht ChatGPT, sondern "fastchat-t5-3b", aber diese Dinger funktionieren gerade alle nach demselben Prinzip.

    Für das Erzeugen von Fake News und Verschwörungstheorien sind die Dinger sicher gut. Schneller als mensch mit dem Lesen hinterherkommt.

    Das ganze "KI" zu nennen ist ein Marketing-Trick von OpenAI: alle anderen (Google, Fakebook) hatten solche Dinger in der Schublade, aber das Risiko war zu hoch, damit rauszukommen. Ein kleines, unbekanntes Startup riskiert nicht so viel, dürstet aber nach Investorkapital. Also wird die Sau auch mal halbfertig durchs Dorf gejagt und wir Dorfdeppen sagen alle "Oooooh".

    Geht mir auf die Ketten.

    [1] lwn.net/Articles/931213/

  • Das sind doch mal gute Nachrichten!



    Wenn rechnen schon schwierig ist, funktioniert folgerichtig also jeder 60 Jahre alte Taschenrechner besser. Denken könnte man auch mal, heutzutage verzweifeln ja schon viele am kleinen Einmaleins.



    “KI” ist daher m.E. die Abkürzung für Hahn-gesteuertes “Kikeriki” oder “Keine Intelligenz”, je nach Belieben.

    • @POFF KAMITO:

      Sie haben einen Taschenrechner, der Ihnen verraten kann, ob 17.077 eine Primzahl ist?



      Das halte ich für ein Gerücht.



      Einfache Prozentrechnung hat jedenfalls bisher immer tadellos funktioniert. Das Programm rechnet nicht nur korrekt, es erklärt auch die einzelnen Rechenschritte. In den letzten Monaten keine Mängel festzustellen. (Regelmäßige Gegenprobe oder nachrechnen im Kopf gehört mit zu meiner minimal-Stichprobe)

      • @Herma Huhn:

        Vielleicht unterschätzen Sie da handelsübliche Taschenrechner. Wenn ich mal auf die Liste der z.B. in Berlin zum Abi zugelassenen Taschenrechner gucke, sehe ich z.B. Casio 82DE X/85 DE X, 87DE X, alles ziemlich normale nicht grafikfähige, nicht programmierbare Taschenrechner für die Schule, die aber laut Handbuch Primfaktorzerlegung beherrschen.

        GPT3.5, GPT4 und Bard sahen in meinen Versuchen in Mathe bisher immer schlecht aus. Einfache 3x3 LGS mit ganzzahligen Lösungen werden falsch gelöst, ähnlich bei anderen Schulmatheaufgaben. Der Rechenweg sieht plausibel aus, aber im Detail stimmen die Zahlen nicht.

        Das ist ähnlich wie das Scheitern der Chatbots an einfachtsen Logiktests, etwa A hat den Gegenstand bewegt, ist gegangen, danach hat B den Gegenstand bewegt, wer weiß wo der Gegenstand liegt? Die Chatbots geben oberflächlich korrekte Sätze aus aber einfachste Zusammenhänge werden nicht korrekt nachvollzogen.

      • @Herma Huhn:

        Der Taschrechner, den ich auf meinem Linux-PC verwende, sagt mir sofort, dass 17077 ein Primzahl ist.

        ChatGPT kann nicht rechnen und beherrscht keine Logik. Es ist ein sehr gutes, eloquentes Laberprogramm mit vielen Talenten, aber Wahrheitsliebe, Logik und Stringenz gehören nicht dazu.

        Um es mit Loriot zu sagen "Wie ein Politker!".

        Prof. Weitz von der HAW Hamburg hat zu ChatGPT und Logik ein schönes Video gemacht: youtu.be/5cYYeuwYF_0

      • @Herma Huhn:

        Seltsam, Wolfram Alpha liefert bei mathematischen Fragen fast immer richtige Antworten, aber anscheinend ist das nicht sexy genug. Ist ja kein Hype-Projekt einer Vanity-Firma, mit der a16z die Investionen hereinholen will. www.wolframalpha.c...=is+17077+prime%3F

        • @Residuum:

          Wolfram Alpha basiert auf dem Computer Algebra System (CAS) Mathematica, einer Software die primär für sehr anspruchsvolle mathematische Probleme eingesetzt wird. Klar, dass eine solche Software mit einer Rechenaufgabe, zumal solchen die sich mit ein paar Opcodes direkt von der Hardware lösen lassen, besser klar kommt, als ein LLM, dass eben nicht strikt logisch, sondern eher assoziativ/intuitiv funktioniert und für streng mathematisch-logische Aufgaben gar nicht ausgelegt ist, weil es dafür seit den Zeiten von Z4 und ENIAC bereits gute Konzepte und Tools gibt. Einen Hammer bewertet man ja auch nicht danach wie gut er Schrauben dreht.

      • @Herma Huhn:

        Jetztmal ehrlich: Ein Dreizeiler in fast jeder Programmiersprache. Das schreibe ich fast genauso schnell wie den Prompt.



        Und dann kann ich es wiederverwerten. Und weiß, das es stimmt.

      • @Herma Huhn:

        Rechnen Sie Mal 123456789 mal 123456789 mit Rechner und chatgpt und vergleichen die Ziffern in der Mitte! Huch, was ist das denn?