Übersetzungen im Netz: Google im "conversation mode"
Googles Angebot für Übersetzungen ist jetzt kostenpflichtig. Wie funktioniert die maschinelle Übersetzung und gehört ihr wirklich die Zukunft?
BERLIN taz | Von weltweiter Reichweite mag das World Wide Web ja sein, doch weltumfassend wird es so lange nicht sein, wie die Sprachbarrieren nicht eingerissen sind. Google arbeitet schon seit längerem daran, dass Übersetzungen einfacher werden. Ein neues, kostenpflichtiges Angebot soll die bisherigen eher hilflosen Versuche ergänzen.
Bis zur Lösung dieses Dilemmas stellen sich zwei Probleme: Einerseits das Problem der verschiedenen Sprachen, die Übersetzungen nötig machen, um eine direkte Kommunikation zu vereinfachen. Und zweitens das Problem der Übersetzungen selbst, die Ressourcen binden. Allein der Übersetzungsdienst der EU in Brüssel hat 2.500 Mitarbeiter.
Es gab und gibt Linguisten, die diese beiden Probleme automatisch lösen wollen. Seit Mitte der 60er, als Noam Chomsky seine generative Grammatiktheorie entwickelte, hoffen Computerlinguisten auf den Durchbruch. Der lässt aber auf sich warten: Denn die Sprache ist viel komplexer, als man damals gedacht hatte.
Texte in Trigrammen
Es gibt zwei Sorten automatisierter Übersetzung. Die eine versucht, den Arbeitsablauf eines Menschen nachzuempfinden. Sie entschlüsselt die Syntax, sie schlägt Worte in Lexika nach und so weiter. Klingt schlüssig, funktioniert aber nicht sehr gut. Die Vielzahl von einander widersprechenden Regeln hat Wissenschaftler zu der Annahme kommen lassen, dass man Sprache nicht begreifen kann, ohne die menschliche Intelligenz vollständig zu begreifen.
Die zweite Methode versucht, das Problem zu umgehen, indem sie statistisch arbeitet. Dazu braucht man einen Pool von Texten. Google zum Beispiel hat Zugriff auf Milliarden von Texten. Daraus generiert das Unternehmen Statistiken. Alle Texte werden in Trigramme zerlegt, das sind Drei-Wort-Kombinationen. Die Variationsmöglichkeiten sind immens, wie man hier sehen kann, aber nicht unendlich. Die Ergebnisse werden quantifiziert, und dank dieser Daten macht sich Google ein recht gutes Bild davon, wie sich die Menschen in einer bestimmten Sprache verständigen.
Gleichzeitig nutzt Google fertige Übersetzungen, die zum Teil von Spezialisten angefertigt wurden. Diese Übersetzungen sind keine Auftragsarbeiten, sondern verwenden schlicht bereits übersetzte Seiten – gleichgültig ob von EU-Spezialisten oder von Automaten.
Google durchsucht diese Texte und stellt einen Abgleich her. Wenn das Wort Auto in einem deutschen Text verwendet wird, findet man das Wort car in der englischen Version. Das funktioniert im Prinzip auch für komplizierte Vokabeln. Und je mehr Daten zum Abgleich zur Verfügung stehen, desto besser wird die Übersetzung.
SEO-Spammer
Google hat daraus einen kostenlosen Dienst entwickelt: Google Translate. Dieser Dienst soll weiterexistieren. Gleichzeitig gibt es für eine automatisierte Anwendung, die es erlaubt, nicht nur Textausschnitte, sondern eine komplette Seite zu übersetzen. Google kam dabei zu beeindruckenden Ergebnissen. Und weil diese Methode billiger ist als die traditionelle, gehört ihr die Zukunft. Dachte man.
Aber diesen Dienst nutzten viele SEO-Spammer - Suchmaschinen-Optimierer, die ihren häufig unbrauchbaren Content in jeder erdenklichen Sprache anbieten wollen, um die Klickzahlen hochjubeln. Auch die Übersetzungen solcher Seiten hat Google übernommen, ohne zu unterscheiden, ob es sich um aufwändig von Menschen bearbeitete oder automatisierte Versionen handelt.
Auf diese Weise gelangten alle Fehler der automatisierten Übersetzung zu Google Translate und Google verbesserte diese Fehler nicht mehr. Im Endeffekt kann das bedeuten: Je häufiger Googles Übersetzungsdienst verwendet wird, desto schlechter arbeitet er. Um gegenzusteuern, gestaltet Google sein Angebot um und macht es kostenpflichtig: 0,05 US-Dollar pro 500 Wörter. Das, so hofft die Firma, sei die Lösung des Spam-Problems.
Nur noch eine Sprache?
Der nächste Schritt ist bereits geplant: Im Januar hat Google eine Alpha-Version des "conversation mode" vorgestellt, das Gespräche übers Telefon simultan übersetzt. Noch können maschinelle Übersetzungen weder menschliche Übersetzer noch Dolmetscher ersetzen, und doch soll ihnen die Zukunft gehören - angesichts der Geschwindigkeit, mit der sich die Programme entwickeln, möglicherweise sogar die nahe Zukunft.
Und langfristig? Langfristig könnte sich eine einzige Sprache als Weltkommunikationsmittel durchsetzen. 6.000 Sprachen gibt es momentan noch auf der Welt. Linguisten gehen davon aus, dass drei Viertel das nächste Jahrhundert nicht überleben. Noch immer dominiert Englisch, wenn auch häufig auf der Basis des in der Luft- und Raumfahrtindustrie üblichen Simplified English, einer Art künstlichem Rudimentärenglisch.
Es wurde gerade auch deswegen entwickelt wurde, um Übersetzungen günstiger zu machen. Es sei, so hat es der englische Professor Mark Pagel einmal gesagt, "unser Schicksal, eine Welt mit einer Sprache zu werden".
taz lesen kann jede:r
Als Genossenschaft gehören wir unseren Leser:innen. Und unser Journalismus ist nicht nur 100 % konzernfrei, sondern auch kostenfrei zugänglich. Texte, die es nicht allen recht machen und Stimmen, die man woanders nicht hört – immer aus Überzeugung und hier auf taz.de ohne Paywall. Unsere Leser:innen müssen nichts bezahlen, wissen aber, dass guter, kritischer Journalismus nicht aus dem Nichts entsteht. Dafür sind wir sehr dankbar. Damit wir auch morgen noch unseren Journalismus machen können, brauchen wir mehr Unterstützung. Unser nächstes Ziel: 40.000 – und mit Ihrer Beteiligung können wir es schaffen. Setzen Sie ein Zeichen für die taz und für die Zukunft unseres Journalismus. Mit nur 5,- Euro sind Sie dabei! Jetzt unterstützen
meistkommentiert
Hype um Boris Pistorius
Fragwürdige Beliebtheit
James Bridle bekommt Preis aberkannt
Boykottieren und boykottiert werden
Russischer Angriff auf die Ukraine
Tausend Tage Krieg
BSW stimmt in Sachsen für AfD-Antrag
Es wächst zusammen, was zusammengehört
Verfassungsklage von ARD und ZDF
Karlsruhe muss die unbeliebte Entscheidung treffen
Kanzlerkandidat-Debatte
In der SPD ist die Hölle los