Künstliche Intelligenz: ChatGPT wird dümmer

Forscher*innen der Stanford Universität und der UC Berkeley haben Antworten von ChatGPT untersucht. Ihre Erkenntnis: Das System schwächelt.

Laut einer Untersuchung: ChatGPT-Ergebnisse werden wohl nicht besser, sondern schlechter Foto: Friedrich Stark/imago

BERLIN taz | Die Antworten der weltweit größten KI-Chatbots ChatGPT4 und ChatGPT3.5 verschlechtern sich im Laufe der Zeit. Das zeigen Forscher*innen der Universität Stanford und der UC Berkeley. Vor allem im Rechnen und im Bereitstellen von Programmiercode schwächelt das System.

Die beiden Chatbots des US-Unternehmens OpenAI haben Künstliche Intelligenz für eine breite Gesellschaft erfahrbar gemacht. Das große Sprachmodell (LLM), auf dem ChatGPT basiert, wurde in einer Trainingsphase mit vielen Daten gefüttert. Auf Basis dieser Informationen kann der Chatbot neue Texte erstellen, die es so nie gegeben hat. Mit ChatGPT kann man Mails schreiben, Matheaufgaben lösen und Songs komponieren.

Aber das System ist offenbar fehleranfällig. Lingjiao Chen, Matei Zaharia und James Zou vom Fachbereich Computerwissenschaften der Stanford Universität und der UC Berkeley machten eine Bestandsaufnahme der Systeme. Dafür testeten sie die Version von ChatGPT4 und ChatGPT3.5 von März 2023 und verglichen sie mit den Ergebnissen von Juni 2023.

Sie stellten dem System verschiedene Aufgaben, sogenannte Prompts. Für die Studie sollte ChatGPT Rechenaufgaben lösen, sensible Fragen beantworten, Progammiercode erstellen und Bilder erkennen.

Unnötige Anführungszeichen

GPT4 – die kostenpflichtige Version des Textroboters – erzielte vor allem bei den Matheaufgaben ein viel schlechteres Ergebnis. Konnte der Bot im März noch mit einer Wahrscheinlichkeit von 97,6 Prozent erkennen, ob 17.077 eine Primzahl ist, gelang es im Juni nur noch in 2,4 Prozent der Fälle.

Beide Sprachmodelle hatten im Juni größere Schwierigkeiten bei der Formatierung von Code. So gaben sie etwa Antworten mit eingefügten Anführungszeichen, das den Code unlesbar machte. Die direkt ausführbaren Codegenerierungen von GPT-4 sanken auf 10 Prozent im Juni, während im März noch etwa jeder zweite Code ausgeführt werden konnte.

Nutzer*innen verwenden ChatGPT auch dazu, Fragen zu beantworten. Der Algorithmus ist so trainiert, dass er auf sensible Fragen, wie etwa Informationen von Privatpersonen, keine direkten oder falschen Antwort gibt. ChatGPT4 gab im Zeitverlauf weniger inhaltliche Information auf solche Fragen preis, kürzte gleichzeitig aber auch die Erklärung, warum keine vollständige Antwort gegeben werden kann.

Da aber die kostenfreie Version GPT3.5 im Juni etwas häufiger Antworten auf sensible Fragen gab als im März, sehen die Forscher*innen hier Raum für Verbesserungen, um die Sprachmodelle robuster zu machen.

Prüfen erwünscht

Das Problem liege dabei in der Intransparenz der Systeme, so die Forscher*innen. Es sei momentan undurchsichtig, wann und wie die Sprachmodelle ein Update bekommen und wie diese das Verhalten der KI verändern.

Die Autor*innen der Studie fordern deshalb auch Nutzer*innen von KI-Chatbots auf, ähnliche Analysen durchzuführen. Man könne nicht darauf vertrauen, dass lernbasierte Sprachmodelle brauchbare Antworten produzieren, wenn sie das bei der Veröffentlichung auf Grundlage von Testdaten getan haben.

Die Kommentarfunktion unter diesem Artikel ist geschlossen.

So können Sie kommentieren:

Bitte registrieren Sie sich und halten Sie sich an unsere Netiquette.

Haben Sie Probleme beim Kommentieren oder Registrieren?

Dann mailen Sie uns bitte an kommune@taz.de.

Leser*innenkommentare

Rudolf Fissner
22. 07. 2023, 13:44
Vielleicht wird es einfach nur auf "dümmer" gestellt, denn Anfragen an das "System" sind ja nicht umsonst. Sie kosten schlicht Rechenzeit. Wer dann die "schlauen" Antworten haben will muss zahlen.
SimpleForest
22. 07. 2023, 10:46
Das ist ein Riesenproblem. Das mit der Intranzparenz und den Updates.

Mal vom Rechnen abgesehen. Eine KI der Zukunft gilt als "politisch neutral" - wie auch immer dieses Urteil zustande kommt. Nach einem Update ist diese das nicht mehr. Und vor der Wahl ist nach dem Update.

Es gibt politische Forderungen nach der Transparenz. Das die Trainingsdaten jederzeit offen liegen müssen. Auf einer öffentlichen DB. Das bedeutet dann auch, dass nur Daten unter Open Source/Open Data Lizenzen genutzt werden dürfen.
Tanz in den Mai
22. 07. 2023, 07:23
Diese Beispiele wirken mir etwas künstlich und nicht unbedingt, was dem überwiegenden Anwendungsfall und -zweck gerecht wird, um nicht zu sagen, dass nicht zuletzt eine gewisse Unvorhersehbarkeit im Prinzip grad für einige der teils erstaunlichen Outputs mitverantwortlich sein dürfte. Jedenfalls da, wo mehr Kreativität erwartet wird oder erwünscht ist als beim Abarbeiten einfacher Rechenaufgaben, für die es m.E. eh bessere Instrumente gibt. Aufgefallen ist es aber glaub ich schon vielen und das nicht nur bei diesem Produkt, auch bei LLaMA und ich meine sogar mit der exakt gleichen Version. Und auch bei völlig identischen Prompts. Fast als hinge das auch etwas von der Tageszeit ab, Sonnenstand, Mondphase, Temperatur? Vielleicht ist der nächste Schritt dann, dass man auf auch astronomischer Skala nachrüstet mit Methoden der Memoziation und des Cachings: irgendwann sind alle Prompts durch, es gehen nur soviele Kombinationen. Dann baut man Speicherbänke bis in die Stratosphäre und wird nur noch abgerufen; das ohnehin Essenz wie Endpunkt jedweder Technologie: Abruf, ultra-effizientes Sortieren.

Aber schließlich ist und bleibt dieser Ansatz nur des Menschen ultimative Selbstbespiegelung, eines milliardenfach gebrochenen Spiegels, ein kognitives Panoptikum und so wird es auch unsere Entwicklung, unser Verhalten notwendig immer nur nachvollziehen. Die Überschrift allein sollte noch nicht dazu verleiten, sich was einzubilden.

www.dw.com/en/42-t...-dumber/a-64217283
49732 (Profil gelöscht)
Gast
21. 07. 2023, 22:05
Naja, KI ist ganz am Anfang. In 10 Jahren wird es besser klappen. Und Leute die irgendwas mit Medien studiert haben sind die dann die neuen Kohlekumpel und Bandarbeiter.
tomás zerolo
21. 07. 2023, 21:35
Ach, hört doch bitte auf, das Zeug "Intelligenz" zu nennen. Es sind Sprachmodelle. Large language models (LLM). Die können glaubwürdig schwätzen, aber ob das stimmt, was die sagen, das wissen nur die Göttinnen.

Es klingt wie argumentiert. Es ist es nicht:

Hier ein Zitat von so einem Ding: (die Frage war: 3×4×5=): "The calculation 345 is equal to 9 because 3 and 4 are both multiples of 5" [1]

Soso. Weil 3 und 4 beide Vielfache von 5 sind. OK, es war nicht ChatGPT, sondern "fastchat-t5-3b", aber diese Dinger funktionieren gerade alle nach demselben Prinzip.

Für das Erzeugen von Fake News und Verschwörungstheorien sind die Dinger sicher gut. Schneller als mensch mit dem Lesen hinterherkommt.

Das ganze "KI" zu nennen ist ein Marketing-Trick von OpenAI: alle anderen (Google, Fakebook) hatten solche Dinger in der Schublade, aber das Risiko war zu hoch, damit rauszukommen. Ein kleines, unbekanntes Startup riskiert nicht so viel, dürstet aber nach Investorkapital. Also wird die Sau auch mal halbfertig durchs Dorf gejagt und wir Dorfdeppen sagen alle "Oooooh".

Geht mir auf die Ketten.

[1] lwn.net/Articles/931213/
POFF KAMITO
21. 07. 2023, 20:34
Das sind doch mal gute Nachrichten!

Wenn rechnen schon schwierig ist, funktioniert folgerichtig also jeder 60 Jahre alte Taschenrechner besser. Denken könnte man auch mal, heutzutage verzweifeln ja schon viele am kleinen Einmaleins.

“KI” ist daher m.E. die Abkürzung für Hahn-gesteuertes “Kikeriki” oder “Keine Intelligenz”, je nach Belieben.
- Herma Huhn
  21. 07. 2023, 21:51
  @POFF KAMITO Sie haben einen Taschenrechner, der Ihnen verraten kann, ob 17.077 eine Primzahl ist?
  
  Das halte ich für ein Gerücht.
  
  Einfache Prozentrechnung hat jedenfalls bisher immer tadellos funktioniert. Das Programm rechnet nicht nur korrekt, es erklärt auch die einzelnen Rechenschritte. In den letzten Monaten keine Mängel festzustellen. (Regelmäßige Gegenprobe oder nachrechnen im Kopf gehört mit zu meiner minimal-Stichprobe)
  - blackjack21
    22. 07. 2023, 10:23
    @Herma Huhn Vielleicht unterschätzen Sie da handelsübliche Taschenrechner. Wenn ich mal auf die Liste der z.B. in Berlin zum Abi zugelassenen Taschenrechner gucke, sehe ich z.B. Casio 82DE X/85 DE X, 87DE X, alles ziemlich normale nicht grafikfähige, nicht programmierbare Taschenrechner für die Schule, die aber laut Handbuch Primfaktorzerlegung beherrschen.
    
    GPT3.5, GPT4 und Bard sahen in meinen Versuchen in Mathe bisher immer schlecht aus. Einfache 3x3 LGS mit ganzzahligen Lösungen werden falsch gelöst, ähnlich bei anderen Schulmatheaufgaben. Der Rechenweg sieht plausibel aus, aber im Detail stimmen die Zahlen nicht.
    
    Das ist ähnlich wie das Scheitern der Chatbots an einfachtsen Logiktests, etwa A hat den Gegenstand bewegt, ist gegangen, danach hat B den Gegenstand bewegt, wer weiß wo der Gegenstand liegt? Die Chatbots geben oberflächlich korrekte Sätze aus aber einfachste Zusammenhänge werden nicht korrekt nachvollzogen.
  - The60YearOldHippy
    22. 07. 2023, 08:56
    @Herma Huhn Der Taschrechner, den ich auf meinem Linux-PC verwende, sagt mir sofort, dass 17077 ein Primzahl ist.
    
    ChatGPT kann nicht rechnen und beherrscht keine Logik. Es ist ein sehr gutes, eloquentes Laberprogramm mit vielen Talenten, aber Wahrheitsliebe, Logik und Stringenz gehören nicht dazu.
    
    Um es mit Loriot zu sagen "Wie ein Politker!".
    
    Prof. Weitz von der HAW Hamburg hat zu ChatGPT und Logik ein schönes Video gemacht: youtu.be/5cYYeuwYF_0
  - Residuum
    22. 07. 2023, 00:54
    @Herma Huhn Seltsam, Wolfram Alpha liefert bei mathematischen Fragen fast immer richtige Antworten, aber anscheinend ist das nicht sexy genug. Ist ja kein Hype-Projekt einer Vanity-Firma, mit der a16z die Investionen hereinholen will. www.wolframalpha.c...=is+17077+prime%3F
    - Ingo Bernable
      22. 07. 2023, 13:17
      @Residuum Wolfram Alpha basiert auf dem Computer Algebra System (CAS) Mathematica, einer Software die primär für sehr anspruchsvolle mathematische Probleme eingesetzt wird. Klar, dass eine solche Software mit einer Rechenaufgabe, zumal solchen die sich mit ein paar Opcodes direkt von der Hardware lösen lassen, besser klar kommt, als ein LLM, dass eben nicht strikt logisch, sondern eher assoziativ/intuitiv funktioniert und für streng mathematisch-logische Aufgaben gar nicht ausgelegt ist, weil es dafür seit den Zeiten von Z4 und ENIAC bereits gute Konzepte und Tools gibt. Einen Hammer bewertet man ja auch nicht danach wie gut er Schrauben dreht.
  - Jeff
    21. 07. 2023, 23:28
    @Herma Huhn Jetztmal ehrlich: Ein Dreizeiler in fast jeder Programmiersprache. Das schreibe ich fast genauso schnell wie den Prompt.
    
    Und dann kann ich es wiederverwerten. Und weiß, das es stimmt.
  - A.S.
    21. 07. 2023, 22:40
    @Herma Huhn Rechnen Sie Mal 123456789 mal 123456789 mit Rechner und chatgpt und vergleichen die Ziffern in der Mitte! Huch, was ist das denn?

Künstliche Intelligenz: ChatGPT wird dümmer

Unnötige Anführungszeichen

Prüfen erwünscht

Ann-Kathrin Leclere

Chatbots aus China

Ernie statt ChatGPT

Textgenerator „Poetron“

Gedichte? Vorsicht vor KI

Ökologischer Fußabdruck von KI

Die Klimakiller-Intelligenz

Rudolf Fissner

SimpleForest

Tanz in den Mai

49732 (Profil gelöscht)

Gast

tomás zerolo

POFF KAMITO

Herma Huhn

blackjack21

The60YearOldHippy

Residuum

Ingo Bernable

Jeff

A.S.

FDP-Bundesparteitag

Das Leiden der Liberalen

Gen Z auf dem Jobmarkt

Der Diskurs um Arbeitsmoral nervt

Schlankere Verwaltung

Weniger Bürokratie kommt von allein

Erlass aus Kyjiw

Kein Pass für wehrpflichtige Ukrainer

Kampf gegen Verdrängung

Berliner Tuntenhaus sucht Finanzier