Anti-Spam-Werkzeug digitalisiert 17.000 Bücher: Zuarbeit für Archivare
Immer dann, wenn man sich im Web irgendwo registriert, muss man einen Code eingeben, um zu zeigen, dass man kein Werbemüll-Roboter ist. Nebenbei werden Bücher transkribiert.
Jeder Nutzer kennt die kleinen Prüfkästchen, die erscheinen, wenn man sich für einen neuen Dienst im Web registrieren will: Verzerrte Buchstaben oder Zahlen, die in Form eines Bildes dargestellt sind, müssen eingegeben werden, um die Anmeldung abzuschließen. "Captcha" genannt ("Completely Automated Public Turing Test to tell Computers and Humans Apart", etwa: "automatischer Test, um Computer und Menschen auseinander zu halten"), dienen sie dazu, Online-Gaunern die Nutzung kostenloser Internet-Services zu erschweren. So soll verhindert werden, dass beispielsweise eine Roboter-Software Abertausende Zugänge beim Gratis-Postdienst Google Mail anlegt, um darüber dann Spam zu verschicken. Auch der automatisierte Missbrauch sozialer Netzwerke soll so verhindert werden.
Wissenschaftler an der Carnegie Mellon University, in Pittsburgh, im US-Bundesstaat Pennsylvania, nutzen die Technologie seit anderthalb Jahren noch zu einem anderen Zweck: Sie digitalisieren damit alte Bücher, die in Hochschularchiven und Bibliotheken lagern und von so schlechter Qualität sind, dass ein Computer allein sie nicht entschlüsseln kann. Das Prinzip ist clever: Die Werke werden Wort für Wort zerlegt und mehreren Nutzern in Form des typischen Spam-Schutz-Puzzles vorgelegt. Stimmen drei Lösungen überein, schließt das System, dass es sich um die korrekte Transkription handelt. Das "Recaptcha" genannte Projekt hat bereits erstaunliche Erfolge zu vermelden: Über 17.000 Bände wurden inzwischen transkribiert, teilten die Forscher am Montag mit. Das entspricht insgesamt 440 Millionen für den Rechner nicht lesbaren Worten. Die Fehlerquote ist dabei erstaunlich gering, liegt im Schnitt unter einem Prozent. Eingebunden wurde Recaptcha auf diversen populären Websites - so machen etwa das soziale Netzwerk Facebook, der Kommunikationsdienst Twitter und der Kartenverkäufer Ticketmaster mit. Insgesamt 40.000 Angebote sollen diesen Dienst einsetzen, vier Millionen Recaptchas werden so jeden Tag gelöst.
Captchas an sich sind als Anti-Betrugs-Werkzeug nicht perfekt. So gibt es ein regelrechtes Wettrennen zwischen Website-Betreibern und Spammern, die ihre Erkennungsprogramme regelmäßig anpassen, unter anderem mit Algorithmen aus der künstlichen Intelligenz. Sind die Spam-Schutz-Symbole beispielsweise nicht verzerrt genug dargestellt oder mit einer gewissen Regelmäßigkeit abgeändert, können die Programme der Werbemüllversender sie lesen und dann wieder so tun, als seien sie echte Menschen.
Und wenn das alles nicht mehr funktioniert, bedienen sich die Online-Gauner dem Engagement kostengünstiger Arbeitskräfte: So soll eine russische Internet-Bande Nutzer in Indien und anderen ärmeren Ländern Cent-Beträge für das Ausfüllen zahlreicher Prüfkästchen bezahlen, über die dann wiederum Spam-Zugänge eröffnet werden können. Die Krönung aller Hacks zum Thema setzt jedoch auf die Beliebtheit sexueller Inhalte im Netz: Eine von Sicherheitsexperten kürzlich entdeckte Software zeigt dem Nutzer Pornobildchen, die sich nur aufdecken lassen, wenn er Captchas löst. Die Technologie ist derart trickreich, dass sie deren Korrektheit sogar in Echtzeit überprüfen kann.
Projekte wie Recaptcha stellen zumindest sicher, dass das Spam-Schutz-Puzzle nicht vollständig umsonst ist. Laut der Carnegie Mellon-Forscher gelang es unter anderem, das Archiv der New York Times von 1908 vollständig zu digitalisieren. Für Rechner ist das schwer: Schmutzpartikel befinden sich auf den Originaldokumenten, das Papier ist verblichen oder der Druck verrutscht. Das menschliche Gehirn kann das ausgleichen, der Rechner nicht. Luis von Ahn, der als Juniorprofessor am Informatik-Institut der Pittsburgher Hochschule lehrt, hat Captcha ursprünglich erfunden und die Technik dann um Recaptcha ergänzt. Er hofft, dass bald über 160 Bücher pro Tag digitalisiert werden können. Der Bedarf ist groß: Bücher aus der Zeit vor 1900 sind besonders schwer im Rechner zu erfassen, die Genauigkeit aktueller Schrifterkennungssysteme liegt laut von Ahn nur bei 80 Prozent.
taz lesen kann jede:r
Als Genossenschaft gehören wir unseren Leser:innen. Und unser Journalismus ist nicht nur 100 % konzernfrei, sondern auch kostenfrei zugänglich. Texte, die es nicht allen recht machen und Stimmen, die man woanders nicht hört – immer aus Überzeugung und hier auf taz.de ohne Paywall. Unsere Leser:innen müssen nichts bezahlen, wissen aber, dass guter, kritischer Journalismus nicht aus dem Nichts entsteht. Dafür sind wir sehr dankbar. Damit wir auch morgen noch unseren Journalismus machen können, brauchen wir mehr Unterstützung. Unser nächstes Ziel: 50.000 – und mit Ihrer Beteiligung können wir es schaffen. Setzen Sie ein Zeichen für die taz und für die Zukunft unseres Journalismus. Mit nur 5,- Euro sind Sie dabei! Jetzt unterstützen
Starten Sie jetzt eine spannende Diskussion!