Archive im Internet: Das verschwundene Web

272793 5123379

Archive im Internet: Das verschwundene Web

Im Netz hält nichts ewig: Server gehen offline, Websites werden ganz oder teilweise gelöscht. Internet-Archive können nur helfen, wenn Seitenbetreiber mitspielen.

5.4.2011 10:30 Uhr

Digitales Gedächtnis: Internet Archive. Bild: screenshot http://www.archive.org/

Von Ben Schwan

Das Netz gilt als Medium mit besonders langem Gedächtnis. Einmal eingestellte Inhalte seien kaum aus dem Internet zu bekommen, heißt es gerne, vom unschönen Unifoto bis zum misslichen Blogposting. Doch das stimmt nicht.

Zwar bieten viele Suchmaschinen die Möglichkeit, auch auf scheinbar Gelöschtes zuzugreifen und soziale Netzwerke wie Facebook brauchen erstaunlich lange, bis Bilder und andere Inhalte komplett getilgt sind. Aber normaler Content, der nicht von Nutzern explizit zwischengespeichert wurde, kann durchaus aus dem Netz entfernt werden - und das passiert täglich.

Seiten können aus den verschiedenen Gründen aus dem Web verschwinden. Dabei muss nicht unbedingt ein Server eine Zeit lang offline gehen oder ganz abgeschaltet werden, weil ein Betreiber keine Lust oder kein Geld mehr hat. Manchmal reicht es aus, dass ein Website-Besitzer schlichtweg vergisst, die Registrierung seiner Domain zu verlängern - schon werden alte Links ungültig und niemand gelangt mehr an altbekannte Daten, weil eine Adresse neuen Besitzern zugewiesen wurde.

Die einfachste Form der Archivierung im Netz ist das sogenannte Caching, bei dem Suchmaschinen beim Durchforsten des Netzes Kopien von Seiten erfassen und diese dann mittels Links in ihren Suchergebnissen verfügbar machen. Dabei werden meist Texte erfasst, keine Bilder; können diese nicht mehr vom Originalort nachgeladen werden, weisen die gespeicherten Seiten an diesen Stellen Lücken auf. Auf diese Weise wird so manches Angebot unleserlich.

Aber auch dieses Caching erfolgt nur, wenn der Seitenbetreiber es nicht explizit unterbindet. Festgelegt wird dies in der sogenannten robots.txt-Datei. Dieses kleine Textfile bestimmt, was Suchroboter (Robots) dürfen und was nicht. Die enthaltenen Vorgaben werden von den meisten Suchmaschinenbetreibern ausgelesen und beachtet - Google tut das genauso wie Bing oder Yahoo.

Internet Archive

In der robots.txt-Datei lässt sich beispielsweise die Angabe "NOARCHIVE" integrieren, das das Caching grundsätzlich untersagt. Der Seitenbetreiber kann dabei festlegen, ob dies nur für bestimmte Verzeichnisse oder Seiten oder für den gesamten Server gelten soll. So manche Nachrichtenseite setzt mittlerweile auf "NOARCHIVE" - aus den unterschiedlichen Gründen. Manchmal möchte ein Anbieter nicht, dass Nutzer ältere Versionen seiner Informationen abfragen können, manchmal wird befürchtet, dass Nutzer auf Caching-Versionen zugreifen, die dann keine bezahlte Werbung mehr enthalten. Auch die Beschränkung der Macht Googles wird gelegentlich angeführt.

Die Folgen können sein, dass ein restriktives "NOARCHIVE" auch große Projekte wie das Internet Archive (IA) ausbremst, das versucht, ein möglichst akkurates Bild der Netzentwicklung zu liefern - von den Anfängen des Web seit 1993 bis zum heutigen Tag. Wer beispielsweise ein Caching durch Google verhindern, die Archivierung durch das Internet Archive aber beibehalten will, kann auch das tun: Dazu muss er in seiner robots.txt nur den Google-Roboter aussperren, die Technik des IA aber durchlassen.

Die robots.txt-Datei bietet auch sonst einige Möglichkeiten, Daten aus dem Netz verschwinden zu lassen. So lässt sich hier ein "NOINDEX"-Tag setzen, das Suchmaschinen verbietet, ein Angebot überhaupt in seinen Index aufzunehmen. Da Webserver ohne Suchmaschinenerfassung im Netz so gut wie nicht existieren (nur Direktlinks würden die Auffindbarkeit ermöglichen), ist auch das ein Weg, historische Inhalte im Netz zu tilgen.

Öffentlich-rechtlicher Sonderweg

Bei den öffentlich-rechtlichen Sendern in Deutschland hat man mit dem Thema seit dem vergangenen Jahr intensiv zu tun. Da nach dem aktuellen Staatsvertrag viele Inhalte nur noch eine bestimmte Zeit online bleiben dürfen, musste eine eigene "Depublizierungs-Infrastruktur" geschaffen werden, die Inhalte löscht und, wenn möglich, auch aus Suchmaschinen tilgt.

Netzbürger, die ja mit ihren GEZ-Gebühren für die Inhalte bezahlt hatten, möchten da nicht mitspielen. Projekte wie Depub.org versuchen sich deshalb mit einer Gegenstrategie: Sie archivieren einfach selbst - trotz potenzieller Urheberrechtsverletzungen.

taz lesen kann jede:r

Als Genossenschaft gehören wir unseren Leser:innen. Und unser Journalismus ist nicht nur 100 % konzernfrei, sondern auch kostenfrei zugänglich. Texte, die es nicht allen recht machen und Stimmen, die man woanders nicht hört – immer aus Überzeugung und hier auf taz.de ohne Paywall. Unsere Leser:innen müssen nichts bezahlen, wissen aber, dass guter, kritischer Journalismus nicht aus dem Nichts entsteht. Dafür sind wir sehr dankbar. Damit wir auch morgen noch unseren Journalismus machen können, brauchen wir mehr Unterstützung. Unser nächstes Ziel: 50.000 – und mit Ihrer Beteiligung können wir es schaffen. Setzen Sie ein Zeichen für die taz und für die Zukunft unseres Journalismus. Mit nur 5,- Euro sind Sie dabei! Jetzt unterstützen