Künstliche Intelligenz: ChatGPT wird dümmer

6404240 5948779

Künstliche Intelligenz: ChatGPT wird dümmer

Forscher*innen der Stanford Universität und der UC Berkeley haben Antworten von ChatGPT untersucht. Ihre Erkenntnis: Das System schwächelt.

21.7.2023

18:40 Uhr

Laut einer Untersuchung: ChatGPT-Ergebnisse werden wohl nicht besser, sondern schlechter Foto: Friedrich Stark/imago

Aus Berlin

Ann-Kathrin Leclère

Die Antworten der weltweit größten KI-Chatbots ChatGPT4 und ChatGPT3.5 verschlechtern sich im Laufe der Zeit. Das zeigen Forscher*innen der Universität Stanford und der UC Berkeley. Vor allem im Rechnen und im Bereitstellen von Programmiercode schwächelt das System.

Die beiden Chatbots des US-Unternehmens OpenAI haben Künstliche Intelligenz für eine breite Gesellschaft erfahrbar gemacht. Das große Sprachmodell (LLM), auf dem ChatGPT basiert, wurde in einer Trainingsphase mit vielen Daten gefüttert. Auf Basis dieser Informationen kann der Chatbot neue Texte erstellen, die es so nie gegeben hat. Mit ChatGPT kann man Mails schreiben, Matheaufgaben lösen und Songs komponieren.

Aber das System ist offenbar fehleranfällig. Lingjiao Chen, Matei Zaharia und James Zou vom Fachbereich Computerwissenschaften der Stanford Universität und der UC Berkeley machten eine Bestandsaufnahme der Systeme. Dafür testeten sie die Version von ChatGPT4 und ChatGPT3.5 von März 2023 und verglichen sie mit den Ergebnissen von Juni 2023.

Sie stellten dem System verschiedene Aufgaben, sogenannte Prompts. Für die Studie sollte ChatGPT Rechenaufgaben lösen, sensible Fragen beantworten, Progammiercode erstellen und Bilder erkennen.

Unnötige Anführungszeichen

GPT4 – die kostenpflichtige Version des Textroboters – erzielte vor allem bei den Matheaufgaben ein viel schlechteres Ergebnis. Konnte der Bot im März noch mit einer Wahrscheinlichkeit von 97,6 Prozent erkennen, ob 17.077 eine Primzahl ist, gelang es im Juni nur noch in 2,4 Prozent der Fälle.

Beide Sprachmodelle hatten im Juni größere Schwierigkeiten bei der Formatierung von Code. So gaben sie etwa Antworten mit eingefügten Anführungszeichen, das den Code unlesbar machte. Die direkt ausführbaren Codegenerierungen von GPT-4 sanken auf 10 Prozent im Juni, während im März noch etwa jeder zweite Code ausgeführt werden konnte.

Nutzer*innen verwenden ChatGPT auch dazu, Fragen zu beantworten. Der Algorithmus ist so trainiert, dass er auf sensible Fragen, wie etwa Informationen von Privatpersonen, keine direkten oder falschen Antwort gibt. ChatGPT4 gab im Zeitverlauf weniger inhaltliche Information auf solche Fragen preis, kürzte gleichzeitig aber auch die Erklärung, warum keine vollständige Antwort gegeben werden kann.

Da aber die kostenfreie Version GPT3.5 im Juni etwas häufiger Antworten auf sensible Fragen gab als im März, sehen die Forscher*innen hier Raum für Verbesserungen, um die Sprachmodelle robuster zu machen.

Prüfen erwünscht

Das Problem liege dabei in der Intransparenz der Systeme, so die Forscher*innen. Es sei momentan undurchsichtig, wann und wie die Sprachmodelle ein Update bekommen und wie diese das Verhalten der KI verändern.

Die Autor*innen der Studie fordern deshalb auch Nutzer*innen von KI-Chatbots auf, ähnliche Analysen durchzuführen. Man könne nicht darauf vertrauen, dass lernbasierte Sprachmodelle brauchbare Antworten produzieren, wenn sie das bei der Veröffentlichung auf Grundlage von Testdaten getan haben.

Gemeinsam für freie Presse

Als Genossenschaft gehören wir unseren Leser:innen. Und unser Journalismus ist nicht nur 100 % konzernfrei, sondern auch kostenfrei zugänglich. Alle Artikel stellen wir frei zur Verfügung, ohne Paywall. Gerade in diesen Zeiten müssen Einordnungen und Informationen allen zugänglich sein. Unsere Leser:innen müssen nichts bezahlen, wissen aber, dass kritischer, unabhängiger Journalismus nicht aus dem Nichts entsteht. Dafür sind wir sehr dankbar. Damit wir auch morgen noch unseren Journalismus machen können, brauchen wir mehr Unterstützung. Unser nächstes Ziel: 50.000 – und mit Ihrer Beteiligung können wir es schaffen. Setzen Sie ein Zeichen für die taz und für die Zukunft unseres Journalismus. Mit nur 5,- Euro sind Sie dabei! Jetzt unterstützen

Themen #Künstliche Intelligenz #Cybersicherheit #Stanford #Studie #Bot

Feedback Kommentieren Fehlerhinweis

taz FUTURZWEI im Abo entdecken

Endlich mal ein Magazin für Zukunft

taz FUTURZWEI ist unser Magazin für eine bessere Zukunft. Das Abo bietet jährlich vier Ausgaben für nur 38 Euro. Zudem erhalten Sie eine Ausgabe von Luisa Neubauers neuestem Buch „Was wäre, wenn wir mutig sind?“ (solange Vorrat reicht).

Jedes Quartal neu in Ihrem Briefkasten
Nur 38 Euro im Jahr
Als Prämie Luisa Neubauers „Was wäre, wenn wir mutig sind?“
Herausgegeben von Harald Welzer

Jetzt abonnieren

13 Kommentare

Rudolf Fissner

22.07.2023, 13:44 Uhr

Vielleicht wird es einfach nur auf "dümmer" gestellt, denn Anfragen an das "System" sind ja nicht umsonst. Sie kosten schlicht Rechenzeit. Wer dann die "schlauen" Antworten haben will muss zahlen.
SimpleForest

22.07.2023, 10:46 Uhr

Das ist ein Riesenproblem. Das mit der Intranzparenz und den Updates.

Mal vom Rechnen abgesehen. Eine KI der Zukunft gilt als "politisch neutral" - wie auch immer dieses Urteil zustande kommt. Nach einem Update ist diese das nicht mehr. Und vor der Wahl ist nach dem Update.

Es gibt politische Forderungen nach der Transparenz. Das die Trainingsdaten jederzeit offen liegen müssen. Auf einer öffentlichen DB. Das bedeutet dann auch, dass nur Daten unter Open Source/Open Data Lizenzen genutzt werden dürfen.
TI
Tanz in den Mai

22.07.2023, 07:23 Uhr

Diese Beispiele wirken mir etwas künstlich und nicht unbedingt, was dem überwiegenden Anwendungsfall und -zweck gerecht wird, um nicht zu sagen, dass nicht zuletzt eine gewisse Unvorhersehbarkeit im Prinzip grad für einige der teils erstaunlichen Outputs mitverantwortlich sein dürfte. Jedenfalls da, wo mehr Kreativität erwartet wird oder erwünscht ist als beim Abarbeiten einfacher Rechenaufgaben, für die es m.E. eh bessere Instrumente gibt. Aufgefallen ist es aber glaub ich schon vielen und das nicht nur bei diesem Produkt, auch bei LLaMA und ich meine sogar mit der exakt gleichen Version. Und auch bei völlig identischen Prompts. Fast als hinge das auch etwas von der Tageszeit ab, Sonnenstand, Mondphase, Temperatur? Vielleicht ist der nächste Schritt dann, dass man auf auch astronomischer Skala nachrüstet mit Methoden der Memoziation und des Cachings: irgendwann sind alle Prompts durch, es gehen nur soviele Kombinationen. Dann baut man Speicherbänke bis in die Stratosphäre und wird nur noch abgerufen; das ohnehin Essenz wie Endpunkt jedweder Technologie: Abruf, ultra-effizientes Sortieren.

Aber schließlich ist und bleibt dieser Ansatz nur des Menschen ultimative Selbstbespiegelung, eines milliardenfach gebrochenen Spiegels, ein kognitives Panoptikum und so wird es auch unsere Entwicklung, unser Verhalten notwendig immer nur nachvollziehen. Die Überschrift allein sollte noch nicht dazu verleiten, sich was einzubilden.

www.dw.com/en/42-t...-dumber/a-64217283
4G
49732 (Profil gelöscht)

21.07.2023, 22:05 Uhr

Naja, KI ist ganz am Anfang. In 10 Jahren wird es besser klappen. Und Leute die irgendwas mit Medien studiert haben sind die dann die neuen Kohlekumpel und Bandarbeiter.
TZ
tomás zerolo

21.07.2023, 21:35 Uhr

Ach, hört doch bitte auf, das Zeug "Intelligenz" zu nennen. Es sind Sprachmodelle. Large language models (LLM). Die können glaubwürdig schwätzen, aber ob das stimmt, was die sagen, das wissen nur die Göttinnen.

Es klingt wie argumentiert. Es ist es nicht:

Hier ein Zitat von so einem Ding: (die Frage war: 3×4×5=): "The calculation 345 is equal to 9 because 3 and 4 are both multiples of 5" [1]

Soso. Weil 3 und 4 beide Vielfache von 5 sind. OK, es war nicht ChatGPT, sondern "fastchat-t5-3b", aber diese Dinger funktionieren gerade alle nach demselben Prinzip.

Für das Erzeugen von Fake News und Verschwörungstheorien sind die Dinger sicher gut. Schneller als mensch mit dem Lesen hinterherkommt.

Das ganze "KI" zu nennen ist ein Marketing-Trick von OpenAI: alle anderen (Google, Fakebook) hatten solche Dinger in der Schublade, aber das Risiko war zu hoch, damit rauszukommen. Ein kleines, unbekanntes Startup riskiert nicht so viel, dürstet aber nach Investorkapital. Also wird die Sau auch mal halbfertig durchs Dorf gejagt und wir Dorfdeppen sagen alle "Oooooh".

Geht mir auf die Ketten.

[1] lwn.net/Articles/931213/
PK
POFF KAMITO

21.07.2023, 20:34 Uhr

Das sind doch mal gute Nachrichten!

Wenn rechnen schon schwierig ist, funktioniert folgerichtig also jeder 60 Jahre alte Taschenrechner besser. Denken könnte man auch mal, heutzutage verzweifeln ja schon viele am kleinen Einmaleins.

“KI” ist daher m.E. die Abkürzung für Hahn-gesteuertes “Kikeriki” oder “Keine Intelligenz”, je nach Belieben.
- HH
  Herma Huhn
  
  21.07.2023, 21:51 Uhr
  
  @POFF KAMITO:
  Sie haben einen Taschenrechner, der Ihnen verraten kann, ob 17.077 eine Primzahl ist?
  
  Das halte ich für ein Gerücht.
  
  Einfache Prozentrechnung hat jedenfalls bisher immer tadellos funktioniert. Das Programm rechnet nicht nur korrekt, es erklärt auch die einzelnen Rechenschritte. In den letzten Monaten keine Mängel festzustellen. (Regelmäßige Gegenprobe oder nachrechnen im Kopf gehört mit zu meiner minimal-Stichprobe)

meistkommentiert

Geplante Kürzungen Kinderarmut durch staatliches Handeln

Berufswahl bei Jugendlichen Wenn du deinen Traumjob nicht machst, macht ihn wer anders

Menschenfeindliche Verkehrspolitik Nicht nur ein Unfall, sondern unterlassene Hilfeleistung

Hohe Spritpreise Vergesst die Übergewinnsteuer!

Reform des Gesundheitssystems Schwarz-rot doktert an den Symptomen

Literaturkritik von Denis Scheck Die Kunst des Verrisses