piwik no script img

Übersetzungen im NetzGoogle im "conversation mode"

Googles Angebot für Übersetzungen ist jetzt kostenpflichtig. Wie funktioniert die maschinelle Übersetzung und gehört ihr wirklich die Zukunft?

Kommunikation: Entscheidend ist, was auf der anderen Seite ankommt. Bild: Photocase / David Dieschburg

BERLIN taz | Von weltweiter Reichweite mag das World Wide Web ja sein, doch weltumfassend wird es so lange nicht sein, wie die Sprachbarrieren nicht eingerissen sind. Google arbeitet schon seit längerem daran, dass Übersetzungen einfacher werden. Ein neues, kostenpflichtiges Angebot soll die bisherigen eher hilflosen Versuche ergänzen.

Bis zur Lösung dieses Dilemmas stellen sich zwei Probleme: Einerseits das Problem der verschiedenen Sprachen, die Übersetzungen nötig machen, um eine direkte Kommunikation zu vereinfachen. Und zweitens das Problem der Übersetzungen selbst, die Ressourcen binden. Allein der Übersetzungsdienst der EU in Brüssel hat 2.500 Mitarbeiter.

Es gab und gibt Linguisten, die diese beiden Probleme automatisch lösen wollen. Seit Mitte der 60er, als Noam Chomsky seine generative Grammatiktheorie entwickelte, hoffen Computerlinguisten auf den Durchbruch. Der lässt aber auf sich warten: Denn die Sprache ist viel komplexer, als man damals gedacht hatte.

Texte in Trigrammen

Es gibt zwei Sorten automatisierter Übersetzung. Die eine versucht, den Arbeitsablauf eines Menschen nachzuempfinden. Sie entschlüsselt die Syntax, sie schlägt Worte in Lexika nach und so weiter. Klingt schlüssig, funktioniert aber nicht sehr gut. Die Vielzahl von einander widersprechenden Regeln hat Wissenschaftler zu der Annahme kommen lassen, dass man Sprache nicht begreifen kann, ohne die menschliche Intelligenz vollständig zu begreifen.

Die zweite Methode versucht, das Problem zu umgehen, indem sie statistisch arbeitet. Dazu braucht man einen Pool von Texten. Google zum Beispiel hat Zugriff auf Milliarden von Texten. Daraus generiert das Unternehmen Statistiken. Alle Texte werden in Trigramme zerlegt, das sind Drei-Wort-Kombinationen. Die Variationsmöglichkeiten sind immens, wie man hier sehen kann, aber nicht unendlich. Die Ergebnisse werden quantifiziert, und dank dieser Daten macht sich Google ein recht gutes Bild davon, wie sich die Menschen in einer bestimmten Sprache verständigen.

Gleichzeitig nutzt Google fertige Übersetzungen, die zum Teil von Spezialisten angefertigt wurden. Diese Übersetzungen sind keine Auftragsarbeiten, sondern verwenden schlicht bereits übersetzte Seiten – gleichgültig ob von EU-Spezialisten oder von Automaten.

Google durchsucht diese Texte und stellt einen Abgleich her. Wenn das Wort Auto in einem deutschen Text verwendet wird, findet man das Wort car in der englischen Version. Das funktioniert im Prinzip auch für komplizierte Vokabeln. Und je mehr Daten zum Abgleich zur Verfügung stehen, desto besser wird die Übersetzung.

SEO-Spammer

Google hat daraus einen kostenlosen Dienst entwickelt: Google Translate. Dieser Dienst soll weiterexistieren. Gleichzeitig gibt es für eine automatisierte Anwendung, die es erlaubt, nicht nur Textausschnitte, sondern eine komplette Seite zu übersetzen. Google kam dabei zu beeindruckenden Ergebnissen. Und weil diese Methode billiger ist als die traditionelle, gehört ihr die Zukunft. Dachte man.

Aber diesen Dienst nutzten viele SEO-Spammer - Suchmaschinen-Optimierer, die ihren häufig unbrauchbaren Content in jeder erdenklichen Sprache anbieten wollen, um die Klickzahlen hochjubeln. Auch die Übersetzungen solcher Seiten hat Google übernommen, ohne zu unterscheiden, ob es sich um aufwändig von Menschen bearbeitete oder automatisierte Versionen handelt.

Auf diese Weise gelangten alle Fehler der automatisierten Übersetzung zu Google Translate und Google verbesserte diese Fehler nicht mehr. Im Endeffekt kann das bedeuten: Je häufiger Googles Übersetzungsdienst verwendet wird, desto schlechter arbeitet er. Um gegenzusteuern, gestaltet Google sein Angebot um und macht es kostenpflichtig: 0,05 US-Dollar pro 500 Wörter. Das, so hofft die Firma, sei die Lösung des Spam-Problems.

Nur noch eine Sprache?

Der nächste Schritt ist bereits geplant: Im Januar hat Google eine Alpha-Version des "conversation mode" vorgestellt, das Gespräche übers Telefon simultan übersetzt. Noch können maschinelle Übersetzungen weder menschliche Übersetzer noch Dolmetscher ersetzen, und doch soll ihnen die Zukunft gehören - angesichts der Geschwindigkeit, mit der sich die Programme entwickeln, möglicherweise sogar die nahe Zukunft.

Und langfristig? Langfristig könnte sich eine einzige Sprache als Weltkommunikationsmittel durchsetzen. 6.000 Sprachen gibt es momentan noch auf der Welt. Linguisten gehen davon aus, dass drei Viertel das nächste Jahrhundert nicht überleben. Noch immer dominiert Englisch, wenn auch häufig auf der Basis des in der Luft- und Raumfahrtindustrie üblichen Simplified English, einer Art künstlichem Rudimentärenglisch.

Es wurde gerade auch deswegen entwickelt wurde, um Übersetzungen günstiger zu machen. Es sei, so hat es der englische Professor Mark Pagel einmal gesagt, "unser Schicksal, eine Welt mit einer Sprache zu werden".

taz lesen kann jede:r

Als Genossenschaft gehören wir unseren Leser:innen. Und unser Journalismus ist nicht nur 100 % konzernfrei, sondern auch kostenfrei zugänglich. Texte, die es nicht allen recht machen und Stimmen, die man woanders nicht hört – immer aus Überzeugung und hier auf taz.de ohne Paywall. Unsere Leser:innen müssen nichts bezahlen, wissen aber, dass guter, kritischer Journalismus nicht aus dem Nichts entsteht. Dafür sind wir sehr dankbar. Damit wir auch morgen noch unseren Journalismus machen können, brauchen wir mehr Unterstützung. Unser nächstes Ziel: 40.000 – und mit Ihrer Beteiligung können wir es schaffen. Setzen Sie ein Zeichen für die taz und für die Zukunft unseres Journalismus. Mit nur 5,- Euro sind Sie dabei! Jetzt unterstützen

Mehr zum Thema

9 Kommentare

 / 
  • PL
    Patrick Lehnen

    @J.R.: Es war mir am Anfang auch noch nicht klar. Aber tatsächlich ist En->De eine sehr schwere Übersetzungsrichtung. Die deutsche Grammatik ist für einen Computer nur sehr schwer zu verstehen. Z.B. das Sprachenpaar Französisch und Englisch liefert sehr viel bessere Ergebnisse, weshalb der Dienst für viele Menschen doch sehr nützlich ist.

  • T
    Tom

    Bin auch auf diese irreführende und falsche Überschrift reingefallen.

    Habt Ihr so was wirklich nötig!?

  • FW
    Florian W.

    Kürzlich habe ich "Hüter der Ringwelt" von Larry Niven gelesen. Ein lesenswertes Buch. Daran denken musste ich, weil in diesem Science-Fiction-Roman die meisten Menschen "Interspeak" sprechen. Und für alle anderen Sprachen hatten zumindest die Hauptpersonen immer einen "Translator" dabei, der selbst ihm fremde Sprachen innerhalb weniger Sätze zu lernen beginnt.

     

    Wie lange das in der Realität wohl noch dauert, bis wir so weit sind (falls wir so weit kommen sollten)?

  • BS
    Über setzung

    In einem anderen Forum meinte jemand, bezahlte Übersetzer würden die Texte mit Google übersetzen und auf dieser Rohversion dann weiterarbeiten. Alles gleich von 0 selber zu tippen wäre denen zu mühselig.

     

    Normen für technisches Englisch u.ä. gibt es ja schon. Wenn man als Autobauer hunderte Sprachen bedienen muss, wären automatisierbare Übersetzungen und System wie RDF und Semantic Web sinnvoll.

     

    Viele Dinge liegen auch schon im Computer vor und werden automatisch in englisch konvertiert. Sportberichte, Aktien-Bilanzen usw. . Da kann man auch andere Sprachen bedienen und das Schalke-Spiel automatisch in üblichem Fußball-Chinesisch als Hörtext abliefern.

    Wer nachrichten.de und dessen App benutzt, sieht, das 90% der Zeitungsartikel dieselben Anreißer-Formulierungen von der Agentur nehmen. Da braucht man also nicht von Verkommung der deutschen Sprache jammern. Agentur-Copy-Paste-Qualitäts-Leistungs-Schutz-Journalismus und Euphemismen wie "sozialismus" "hartz4" "Neo-Liberal" "Kapitalismus" "Freiheit" "Gewinne" "Leistung" "Sparen"... sind Verkommung der deutschen Sprache. Sogar "Analog-Käse" ist ein ehrlicheres Produkt als die viele Politiker-Reden und Zeitungsberichte.

     

    Gut war der Hinweis auf SEO. Auch Email-Spammer nutzen diese Tools vermutlich.

    Bei Kunstwerken wird ja inzwischen markiert wo nachgebessert wird. Evtl ist Google-Translate im Profi-Bereich ähnlich und man soll erkennen, das noch keine bezahlwürdige Arbeit reingesteckt wurde.

  • D
    deviant

    "Aber die Sprache um ein Wort ärmer machen heißt das Denken der Nation um einen Begriff ärmer machen." - Arthur Schopenhauer, Die Welt als Wille und Vorstellung

     

    Sprache zu vereinheitlichen heisst auch Denken vereinheitlichen - mir graut es vor einer so langweiligen Welt, in der die Vorstellung eines Argentiniers. eines Franzosen, eines Chinesen und eines Somalis dieselbe ist.

    Das wäre die allerschlimmste und nachhaltigste Form dessen, was man so oft als "amerikanischen Kulturimperialismus" geisselt.

  • J
    J.R.

    Wer den automatischen Übersetzer von Google regelmäßig auf ganze Webseiten, z.B. eines fremdsprachigen Nachrichtenportals loslässt der weiss eines: die Qualität ist unter aller Sau.

     

    In der Regel folgen auf einen verständlichen Satz drei, deren Sinn sich auch mit viel gutem Willen nicht erschließt. Das gilt nicht nur für 'exotische' Sprachen. Schon Englisch->Deutsch hat dieses Problem.

     

    Ich nehme an, die Maßnahme von Google zielt allein darauf, den autoübersetzten Spam einzudämmen.

  • F
    fontanabooks.ch

    Für Begriffe/Worte, basierend auf bereits übersetzten Texten, ist www.linguee.de eine sehr gute Adresse.

  • T
    Tipo

    Die Überschrift ist irreführend. Denn die Übersetzung über die Webseite (translate.google.com) bleibt weiterhin kostenlos. Einzig wenn man die API für Übersetzungen nutzen möchte muss man dafür zahlen.

  • T
    Tazleserin

    "Gleichzeitig gibt es für eine automatisierte Anwendung, die es erlaubt, nicht nur Textausschnitte, sondern eine komplette Seite zu übersetzen, und zwar nicht nur vergangene Artikel, sondern auch für zukünftige."

     

    Auch eine automatische Übersetzung? ;-)