KI-Erkennungssoftware: Die Grenzen der Detektoren

Für die Erkennung KI-generierter Texte werden zunehmend Programme wie „Pangram“ eingesetzt. Doch wie verlässlich sind diese Detektoren überhaupt?

20.6.2026

14:03 Uhr

Von

Raoul Spada

Politiker*innen tun es, mindestens Minister und Ministerpräsidenten. Verleger, Herausgeber und Journalist*innen haben es getan. Wie die Schüler*innen und Studierenden mogelt auch das Lehrpersonal, vermutlich sündigt gar der Papst. Für sie alle schreibt künstliche Intelligenz Reden, Artikel, Hausarbeiten – ohne dass sie es offenlegen. In Deutschland standen vergangene Woche Digitalminister Karsten Wildberger, Thüringens Ministerpräsident Mario Voigt und der Tagesspiegel-Redakteur Stephan-Andreas Casdorff für ihren undeklarierten KI-Einsatz in der Kritik.

Auch in der Gesamtschau erhärtet sich die These, dass KI-generierter Text bald überall sein wird: Ein Großteil neuerer Publikationen im Internet wird inzwischen von KI geschrieben, zeigt etwa eine Analyse des KI-Dienstleisters Graphite: Über die Hälfte aller neuen englischsprachigen Artikel sei „wahrscheinlich KI“. Vermutlich verzerren automatische Übersetzungen das Bild, und der Prozentsatz habe ein Plateau erreicht. Trotzdem flutet KI-Schlamm augenscheinlich das Netz.

Wie gut sind Erkennungstools?

Nachdem Wissenschaftler*innen der Universität Maryland in 250.000 Artikeln amerikanischer Medien 9 Prozent KI-Anteil gefunden hatten, erschienen im amerikanischen Monatsmagazin The Atlantic gleich mehrere kritische Beiträge. Künstliche Intelligenz sei längst in die Medienhäuser und Verlage eingesickert, konstatierten die Autoren. Selbst in renommierten Medienhäusern würde großflächig KI eingesetzt.

KI und Journalismus (Sommerserie 2026)

Der Tagesspiegel hat seinem Editor-at-Large, Stephan-Andreas Casdorff, Publikationsverbot erteilt, weil er Texte von einer KI schreiben ließ. Mathias Döpfner, Vorstandsvorsitzender von Axel Springer, ließ daraufhin eine KI einen Text unter seinem Namen schreiben, der für die Nutzung von KI im Journalismus plädierte. Das Ressort taz2/Medien startet eine Sommertalkshow mit Diskussionsbeiträgen zur Rolle von KI im Journalismus und zur Zukunft unserer Branche. Bisher erschienen sind folgende Texte:

Martin Niewendick: „Der nötige Spritzer Selbstkritik“ über die Notwendigkeit der Debatte

Ambros Waibel: „Selbst schuld“ über die missliche Ausgangslage des Journalismus

Raoul Spada: „Die Grenzen der KI-Detektoren “ über die Vertrauenswürdigkeit der Erkennungssoftware

KI-Erkennungstools wie Originality AI, GPTZero, Copyleaks, Scribbr oder Pangram versprächen, künstliche Texte als solche zu entlarven. Nur seien diese Programme laut Atlantic gerade ausreichend, um viel benutzt zu werden – dabei aber längst nicht zuverlässig genug. Amerika habe darum ein „Pangram-Problem“, so das Magazin. Auch bei den neusten deutschen KI-Enthüllungen kam Pangram zum Einsatz.



Kein Erkennungstool taugt wirklich zur zuverlässigen Überprüfung einzelner Artikel, das erklärt auch Pangram selbst

Doch wie gut sind KI-Erkennungstools tatsächlich? Mit etwas Übung lassen sich viele KI-Texte sogar ohne maschinelle Hilfe erkennen, erklärt Max Spero. Spero ist der Gründer und CEO von „Pangram Labs“, dem Anbieter des gleichnamigen Erkennungstools. Die Erkennung ohne Tool sei möglich, da die gängigen Modelle oft gleichförmig und vorhersehbar schrieben. Besonders äußere sich das, wenn die Eingaben kurz seien. Etwa: „Schreib mir einen Artikel über Moby Dick.“

Nachträgliche Vermenschlichung

Aber auch so schon wirkten ihre Texte oft künstlich. Sie seien stärker strukturiert, die Satzlängen variierten wenig. Auch hätten die Modelle bestimmte Ticks. Der verräterische Halbgeviertstrich – auch Gedankenstrich genannt – werde besonders von älteren Modellen gern verwendet. „In neueren Modellen sind die Anzeichen subtiler“, so Spero. Deswegen sei es zunehmend schwerer, konkrete Phrasen und Muster in KI-Texten auszumachen. Auch könnten Artikel nachträglich bearbeitet werden, um menschlicher zu erscheinen. Dafür gibt es sogar eigens programmierte KIs, sogenannte Humanisierer.

Noch attestiert Pangram seinem eigenen Detektor aber eine hohe Genauigkeit: Seine 99,98-prozentige Trefferquote erreiche es ähnlich wie die Konkurrenz: Erst werden große Mengen KI-generierter Texte auf Muster untersucht, dann lassen sich mit ihnen Texte auf ebendiese typischen Muster prüfen. Durch wiederholtes Training erreiche Pangram aber eine geringere Fehlerquote.

Der „KI-Detektor, der wirklich funktioniert“, liefert auf seiner Website auch die dazu passenden Studien: In einem Test durch die University of Chicago aus dem vergangenen Jahr erklärte Pangram fast keinen der 3.000 getesteten Texte fälschlicherweise als KI-generiert. In eigenen Tests war sogar nur jeder zehntausendste Text falsch positiv.

Die Krux: Auch ein Test mit 100-prozentiger Trefferquote muss nicht unbedingt gut sein. Das passende Extrembeispiel dürfte einigen noch aus der Coronapandemie bekannt sein. Ein Test, der immer anschlägt, liegt bei jedem positiven Fall richtig. Seine Erkennungsrate liegt bei 100 Prozent. Schlägt der Test auch bei negativen Fällen an, ist er trotzdem wertlos.

Entscheidend über die Güte des Tests ist daher auch die Zahl der „false negatives“. Diese Quote klingt gleich auch weniger beeindruckend: Rund 85 Prozent aller KI-generierten Texte würden erkannt, 15 Prozent nicht. In Schulnoten wäre das statt summa cum laude eher eine bescheidene Zwei minus. Während Pangram also wenige Texte irrtümlich als KI markiert, schneidet es hierbei ähnlich ab wie die Konkurrenz. GPTZero und Copyleaks sind bei der KI-Erkennung sogar etwas besser, schlagen dafür aber häufiger falschen Alarm.

Hochschulen wappnen sich mit KI-Detektoren

Dass kein Erkennungstool wirklich zur Überprüfung einzelner Artikel taugt, erklärt im Kleingedruckten auch das Unternehmen selbst: „Alle KI-Erkennungstools produzieren falsch-positive Ergebnisse und sollten deswegen nur zusammen mit weiteren Beweisen genutzt werden, um Plagiate zu erkennen“, steht in einem technischen Report von 2024. KI könne echte Faktenprüfungen in Nachrichten und Medien nicht ersetzen. Und: „Wir raten dringend davon ab, die Beurteilung von Plagiatsvorwürfen und akademischer Integrität allein auf unseren Klassifikator zu stützen.“

Die akademische Integrität kommt hier nicht zufällig zur Sprache. Schon vor dem Aufkommen der neuen Sprachmodelle nutzten Hochschulen automatische Tools, um studentische Arbeiten auf Plagiate zu prüfen. Zunehmend kommen dazu KI-Detektoren zum Einsatz: Jede fünfte Hochschule stellt ihren Dozierenden laut KI-Monitor 2025 KI-Erkennungstools zentral zur Verfügung. Jede zwanzigste setzt diese im Regelbetrieb ein. Immer öfter beklagen Studierende verschiedener Hochschulen falsche Beschuldigungen infolge des Einsatzes von KI-Detektoren.

Mehrere Gutachten im Auftrag von Universitäten raten deswegen strikt von der Verwendung ab. Rechtlich stünde der Einsatz auf tönernen Füßen, außerdem würde ein falsches Sicherheitsgefühl vermittelt. Einige Lehrende fordern deswegen bereits ein Verbot, darunter auch die KI-Forscherin Doris Weßels: „KI-Detektoren sind technisch unzuverlässig, reproduzieren Bias, sind rechtlich nicht belastbar und führen zu einer Misstrauenskultur im Bildungsbereich“, schreibt sie in einem Beitrag für Table Media.

Eine Stellungnahme des „Digitale Lehre Hub Niedersachsen“ macht der Hoffnung auf einfache Lösungen den Garaus: Studierende könnten ihre Texte mit KI-Detektoren testen und anpassen, um den Einsatz zu verschleiern, „insbesondere, wenn diese es auf einen Täuschungsversuch abgesehen haben“. Stattdessen rät das von Hochschulen beauftragte Gremium – wie schon der Deutsche Ethikrat – dazu, „Prüfungsformate und Prüfungskulturen insgesamt auf den Prüfstand zu stellen“.

Journalist:innenverbände fordern Selbstverpflichtung

Medienhäuser, die ihr Vertrauen nicht verspielen wollen, stehen vor ganz ähnlichen Problemen, nicht erst seit dieser Woche. Anstelle eines großflächigen Einsatzes von KI-Erkennungstools fordern die Journalist:innenverbände DJV und dju deswegen schon länger eine flächendeckende Kennzeichnung von KI-Nutzung in journalistischen Artikeln. Ein Hinweis an jedem journalistischen Beitrag solle im Pressekodex verankert werden, erklärte der Deutsche Journalisten-Verband (DJV) am Mittwoch erneut. Der DJV-Bundesvorsitzende Mika Beuster warnte: „Die Glaubwürdigkeit des Journalismus steht auf dem Spiel.“

Am selben Tag forderte die Deutsche Journalisten-Union (dju) eine branchenweite Selbstverpflichtung zur Kennzeichnung KI-generierter Inhalte. Diese sei notwendig, solange es keine gesetzlichen Vorgaben gebe. „Wer hier ohne Regeln agiert, riskiert die eigene Existenzgrundlage“, so dju-Bundesgeschäftsführerin Danica Bensmail.

Auch wenn der Presserat die Forderungen bislang zurückwies, steht eine gesetzliche Vorgabe zur Kennzeichnung vollständig KI-generierter Inhalte womöglich bevor: Im Rahmen der europäischen KI-Verordnung („AI Act“) legte die EU-Kommission erst vergangene Woche einen Verhaltenskodex vor, der die Kennzeichnung von KI-generierten Inhalten vorsieht. Obwohl sich der größte Teil der Verordnung an Anbieter von KI-Modellen richtet, beziehen sich einige Transparenzregeln nämlich auch auf die Anwender der Modelle.

KI-generierte oder manipulierte Texte, die im öffentlichen Interesse verbreitet werden, sollen demnach für Nutzer*innen deutlich erkennbar ausgewiesen werden. Eine sorgfältige redaktionelle oder anderweitige Prüfung könne davon befreien, so die EU-Kommission. Doch kein EU-Gesetz wird Redaktionen dabei helfen, täuschend menschlich wirkende KI-Texte von freien Autor*innen und eigenen Redakteur*innen zu erkennen und auszusortieren.

Die taz gehört zu 100 Prozent ihren Leser:innen und ist damit nicht nur konzernfrei, sondern auch kostenfrei zugänglich. Alle Artikel stellen wir frei zur Verfügung, ohne Paywall. Gerade in diesen Zeiten müssen Einordnungen und Informationen allen zugänglich sein. Unsere Leser:innen müssen nichts bezahlen, wissen aber, dass kritischer, unabhängiger Journalismus nicht aus dem Nichts entsteht. Dafür sind wir sehr dankbar. Damit wir auch morgen noch unseren Journalismus machen können, brauchen wir mehr Unterstützung für taz zahl ich. Dank Ihnen haben wir nun die 50.000 erreicht. So viele unterstützen freiwillig und regelmäßig. Noch nicht dabei? Werden Sie jetzt Teil der Community! Jetzt unterstützen

KI-Erkennungssoftware: Die Grenzen der Detektoren

Wie gut sind Erkennungstools?

Nachträgliche Vermenschlichung

Hochschulen wappnen sich mit KI-Detektoren

Journalist:innenverbände fordern Selbstverpflichtung

Themen

10 Ausgaben für 10 Euro

Die Wochenzeitung mit taz-Blick

KI-Erkennungssoftware: Die Grenzen der Detektoren

Wie gut sind Erkennungstools?

Nachträgliche Vermenschlichung

Hochschulen wappnen sich mit KI-Detektoren

Journalist:innenverbände fordern Selbstverpflichtung

Themen

10 Ausgaben für 10 Euro Die Wochenzeitung mit taz-Blick

10 Ausgaben für 10 Euro

Die Wochenzeitung mit taz-Blick