Künstliche Intelligenz: ChatGPT wird dümmer
Forscher*innen der Stanford Universität und der UC Berkeley haben Antworten von ChatGPT untersucht. Ihre Erkenntnis: Das System schwächelt.
Die beiden Chatbots des US-Unternehmens OpenAI haben Künstliche Intelligenz für eine breite Gesellschaft erfahrbar gemacht. Das große Sprachmodell (LLM), auf dem ChatGPT basiert, wurde in einer Trainingsphase mit vielen Daten gefüttert. Auf Basis dieser Informationen kann der Chatbot neue Texte erstellen, die es so nie gegeben hat. Mit ChatGPT kann man Mails schreiben, Matheaufgaben lösen und Songs komponieren.
Aber das System ist offenbar fehleranfällig. Lingjiao Chen, Matei Zaharia und James Zou vom Fachbereich Computerwissenschaften der Stanford Universität und der UC Berkeley machten eine Bestandsaufnahme der Systeme. Dafür testeten sie die Version von ChatGPT4 und ChatGPT3.5 von März 2023 und verglichen sie mit den Ergebnissen von Juni 2023.
Sie stellten dem System verschiedene Aufgaben, sogenannte Prompts. Für die Studie sollte ChatGPT Rechenaufgaben lösen, sensible Fragen beantworten, Progammiercode erstellen und Bilder erkennen.
Unnötige Anführungszeichen
GPT4 – die kostenpflichtige Version des Textroboters – erzielte vor allem bei den Matheaufgaben ein viel schlechteres Ergebnis. Konnte der Bot im März noch mit einer Wahrscheinlichkeit von 97,6 Prozent erkennen, ob 17.077 eine Primzahl ist, gelang es im Juni nur noch in 2,4 Prozent der Fälle.
Beide Sprachmodelle hatten im Juni größere Schwierigkeiten bei der Formatierung von Code. So gaben sie etwa Antworten mit eingefügten Anführungszeichen, das den Code unlesbar machte. Die direkt ausführbaren Codegenerierungen von GPT-4 sanken auf 10 Prozent im Juni, während im März noch etwa jeder zweite Code ausgeführt werden konnte.
Nutzer*innen verwenden ChatGPT auch dazu, Fragen zu beantworten. Der Algorithmus ist so trainiert, dass er auf sensible Fragen, wie etwa Informationen von Privatpersonen, keine direkten oder falschen Antwort gibt. ChatGPT4 gab im Zeitverlauf weniger inhaltliche Information auf solche Fragen preis, kürzte gleichzeitig aber auch die Erklärung, warum keine vollständige Antwort gegeben werden kann.
Da aber die kostenfreie Version GPT3.5 im Juni etwas häufiger Antworten auf sensible Fragen gab als im März, sehen die Forscher*innen hier Raum für Verbesserungen, um die Sprachmodelle robuster zu machen.
Prüfen erwünscht
Das Problem liege dabei in der Intransparenz der Systeme, so die Forscher*innen. Es sei momentan undurchsichtig, wann und wie die Sprachmodelle ein Update bekommen und wie diese das Verhalten der KI verändern.
Die Autor*innen der Studie fordern deshalb auch Nutzer*innen von KI-Chatbots auf, ähnliche Analysen durchzuführen. Man könne nicht darauf vertrauen, dass lernbasierte Sprachmodelle brauchbare Antworten produzieren, wenn sie das bei der Veröffentlichung auf Grundlage von Testdaten getan haben.
taz lesen kann jede:r
Als Genossenschaft gehören wir unseren Leser:innen. Und unser Journalismus ist nicht nur 100 % konzernfrei, sondern auch kostenfrei zugänglich. Texte, die es nicht allen recht machen und Stimmen, die man woanders nicht hört – immer aus Überzeugung und hier auf taz.de ohne Paywall. Unsere Leser:innen müssen nichts bezahlen, wissen aber, dass guter, kritischer Journalismus nicht aus dem Nichts entsteht. Dafür sind wir sehr dankbar. Damit wir auch morgen noch unseren Journalismus machen können, brauchen wir mehr Unterstützung. Unser nächstes Ziel: 40.000 – und mit Ihrer Beteiligung können wir es schaffen. Setzen Sie ein Zeichen für die taz und für die Zukunft unseres Journalismus. Mit nur 5,- Euro sind Sie dabei! Jetzt unterstützen
meistkommentiert
Umgang mit der AfD
Sollen wir AfD-Stimmen im Blatt wiedergeben?
Internationaler Strafgerichtshof
Ein Haftbefehl und seine Folgen
Krieg in der Ukraine
Kein Frieden mit Putin
Utøya-Attentäter vor Gericht
Breivik beantragt Entlassung
Entlassene grüne Ministerin Nonnemacher
„Die Eskalation zeichnete sich ab“
Warnung vor „bestimmten Quartieren“
Eine alarmistische Debatte in Berlin