Mit Maschinen reden

Die computergesteuerte Spracherkennung steckt immer noch in den Kinderschuhen  ■ Von Antonia Rötger

„Bitte beantworten Sie die folgenden Fragen nach dem Signalton mit Ja oder Nein. Möchten Sie eine Buchung vornehmen?“ Hinter der verbindlichen Frauenstimme steckt ein Tonband, das eine Frage nach der anderen abspult. Der Anrufer hangelt sich mittels Ja/Nein durch das Menü und hat keine Chance, direkt zum Ziel zu kommen. Falls er die Beschränktheit seines maschinellen Partners nicht begreift, etwas ganz anderes will und zur normalen Sprache mit „Halt, Moment mal, ich will doch nur...“ übergeht, wird die Frage noch mal wiederholt und mit dem Nachklapp versehen: „Bitte antworten Sie nur mit Ja oder Nein.“

So einfach sehen die Anwendungen moderner Spracherkennungssysteme aus, die in Vermittlungszentralen großer Dienstleister, beim Wetterdienst oder bei anderen Telefondiensten inzwischen eingerichtet sind. Sie erkennen einige Wörter wie ja oder nein, wie Stop oder die zehn Ziffern, vorausgesetzt, der Anrufer bemüht sich, deutlich zu sprechen. Supercomputer HAL in Stanley Kubricks „2001 – Odyssee im Weltraum“ versteht dagegen genuschelte und verzerrte Unterhaltungen in lockerem Slang, aber von diesen Science-fiction-Visionen ist die Technik heute immer noch weit entfernt.

Hinter den Bemühungen um automatisierte Spracherkennung steckt ein gewaltiges Anwendungs- und Rationalisierungspotential: Briefe und Protokolle ließen sich direkt in den Rechner diktieren, Autos oder Maschinen mit Kommandos steuern oder Geschäftsbesprechungen simultan per Computer übersetzen. Eine Gruppe von SprachexpertInnen der Frankfurter Johann-Wolfgang-Goethe-Universität arbeitet seit einigen Jahren an den Problemen, die Maschinen mit der menschlichen Sprache haben. Denn ein Mensch spricht das gleiche Wort nie gleich aus, sondern variiert es je nach Augenblicksstimmung oder Situation. Noch schwerwiegender aber sind die Unterschiede zwischen den Menschen. Mal ist es ein Dialekt, mal die Silbenlänge, das Zungen-R oder ein Lispeln.

Die Frankfurter Forscher haben ein Analyseprogramm entwickelt, das die akustischen Anweisungen in ihre phonetischen Bestandteile zerlegt und mit den vorgegebenen Mustern, den zu erkennenden Schlüsselwörtern, vergleicht. In der deutschen Sprache lassen sich insgesamt 89 sogenannte Phoneme oder klangliche Untereinheiten unterscheiden, 20 davon für Konsonanten und 19 für Vokale und Umlaute verschiedener Länge und Betonung. Die Zahl Sieben wird zum Beispiel mal mit weichem, mal mit scharfem „S“ gesprochen, und mal wird das Ende verschluckt; das akustische Ergebnis der verschiedenen Variationen soll trotzdem immer mit „7“ identifiziert werden. Zwei mathematische Modelle taugen für diesen Job, und beide müssen vorher sehr aufwendig „lernen“, mit welcher Wahrscheinlichkeit bei dem vorgegebenen Wort bestimmte Übergänge zwischen den Phonemen vorkommen. Um die Maschinen auf ein einziges Wort zu trainieren, müssen bisher etwa 100 verschiedene Sprecher aufgenommen werden.

Das sei gar nicht so einfach, diese Leute zu finden, erklärt der Phonetiker Fred Englert, denn damit alle Variationen eines Wortes vorkommen, müssen auch die Testpersonen möglichst unterschiedlich sein. Sein Kollege, der Physiker Herbert Reininger, will nun diesen langen Lernprozeß durch einen Sprachdatengenerator automatisieren und arbeitet an einem Programm, das alle möglichen Variationen selber herstellt. Mit dem eingespeicherten Wissensschatz analysiert der Rechner die Lautfolge und schlägt aus dem Vorrat der zugelassenen Wörter eines als Hypothese vor. Je größer der Wortschatz, desto größer ist auch der Rechenaufwand, und die Gefahr der Verwechslung steigt.

Die Wissenschaftler legen besonders Wert auf Sprecherunabhängigkeit und versuchen, die Spracherkennung per Telefon zu optimieren und unempfindlich gegen Geräusche und Lärm zu machen. Denn über das Telefon ist die Signalqualität oft sehr schlecht. Gerade mal ein kleiner Teil des Signals kommt durch die Leitung, die hohen Frequenzen von Zischlauten gehen zum Beispiel verloren. Auch Nebengeräusche wie Verkehr oder Hintergrundgespräche kann ein Computer zunächst nicht von den wesentlichen Signalen unterscheiden. Als wesentliche Verbesserung gegenüber den bisher gängigen Sprachcomputern haben Englert und Reininger ihren Systemen schon etwas Toleranz für menschliches Sprachverhalten beigebracht. Ihr Dialogsystem kann inzwischen Schlüsselwörter aus einem beliebigen Text heraus erkennen und springt darauf an. In Zukunft wäre es dann nicht weiter tragisch, wenn ein Mensch sich seine Ausdrucksweisen nicht abgewöhnt; die Maschine würde das „Ja, Hallo, Entschuldigung...“ und das Drumherum einfach ignorieren.