online translations1

DER SPIEGEL Nr. 17, 26/04/10

Internet

Googeln in fremden Zungen

Von Philip Bethge

Informatiker Och: Ein Affront für jeden Linguisten

Informatiker Och: Ein Affront für jeden Linguisten

Ein deutscher Forscher hat eines der ersten alltagstauglichen Übersetzungsprogramme entwickelt. Brachiale Rechenkraft verhilft der Google-Software zu verblüffend guten Ergebnissen.

Es ist ein gutes Zeichen, wenn der Schöpfer einer Software diese auch endlich selbst benutzt. In Japan war Franz Och jüngst auf Reisen. Im Restaurant zückte er sein Handy und entschlüsselte die Speisekarte. Auch Lokalnachrichten las er ohne Mühe. Denn die Übersetzungen erhielt er in Sekunden.

Seit sechs Jahren entwickelt der 38-Jährige im Google-Hauptquartier im kalifornischen Mountain View das Übersetzungsprogramm "Google Translate", "und bislang habe ich es eigentlich nie wirklich selbst benutzt", räumt Och ein. Doch nun der Sinneswandel: "Ich bin sehr glücklich über das, was wir erreicht haben."

Der Deutsche ist der heimliche Star einer Software-Branche, die kein geringeres Ziel hat, als die globalen Sprachbarrieren einzureißen. Och ringt für Google mit Schachtelsätzen, Konjunktiven und Hilfsverben. Das Resultat ist ein Affront für jeden Linguisten. Denn nicht Sprach-Know-how, sondern brachiale Rechenkraft erlaubt die maschinelle Dolmetscherei.

52 Sprachen beherrscht das System bereits. Die Datenbanken für 296 weitere sind gleichsam im Rohbau. Unter ihnen finden sich Exoten wie Sardisch, Westfriesisch oder Zulu.

"Maschinelle Übersetzung ist auf einer neuen Stufe angekommen"

Komplette Internetseiten, Diplomarbeiten, selbst Liebesbriefe übersetzt "Google Translate" im Handumdrehen - und liefert dabei oftmals verblüffend brauchbare Ergebnisse. Für Google liegt der Nutzen auf der Hand: Noch mehr Internetsurfer als bislang lassen sich mit einer derart nützlichen und zudem kostenlosen Anwendung auf die Website der Firma locken.

"Maschinelle Übersetzung ist auf einer neuen Stufe angekommen", schwärmt Och, "die Leute setzen unser Programm inzwischen massiv ein; die Software hat die reale Welt erreicht."

"Was Google hier macht, ist sehr beeindruckend", bestätigt Alon Lavie von der Carnegie Mellon University in Pittsburgh. Der Informatiker sieht die gesamte Branche in Bewegung. Der Markt für Übersetzungssoftware wachse rapide: "Es sind sehr aufregende Zeiten."

Die Epoche der maschinellen Übersetzung ist angebrochen. Programme wie "Google Translate" weisen den Weg in eine Zukunft, in der jedermann auf Knopfdruck in fremden Zungen sprechen kann. Das ultimative Ziel der Sprachtüftler ist eine elektronische Version jenes Babelfischs, den der britische Autor Douglas Adams in seinem Science-Fiction-Klassiker "Per Anhalter durch die Galaxis" erfand: Ins Ohr eingesetzt, übersetzt die blutegelartige Kreatur jede Sprache simultan. Selbst die krude Poesie der Vogonen kann Romanheld Arthur Dent verstehen.

"Wörter haben häufig mehrere Bedeutungen, und die Zahl der Kombinationen ist schier unendlich"

So weit haben es die Entwickler in der Realität zwar noch nicht gebracht. Doch schon gibt es iPhone-Apps wie "Jibbigo", das gesprochenes Englisch wieselflink ins Spanische übersetzt. Schöpfer der Software ist Alex Waibel, Informatiker an der Universität Karlsruhe und an der Carnegie Mellon University. Waibel lässt bereits viele seiner Vorlesungen von Rechnern simultan übersetzen. Auch an Parlamentsdebatten testete er die Technik schon.

Dabei war der Dolmetscher aus dem Computerlabor lange ein kühner Traum. Woher etwa soll die Maschine wissen, dass beim Englischen "breaking records" keine Schallplatten zerdeppert werden? In dem Satz "wir treffen uns im Schloss" wiederum muss die Software die Vokabel "Schloss" mit "castle" übersetzen und keinesfalls mit "lock" (Türschloss), was offensichtlich ziemlicher Blödsinn wäre.

Lange Zeit versuchten die Informatiker, den Programmen derlei Weltwissen über ein komplexes Regelwerk einzubimsen. Doch selbst bei tadellos formulierten Texten geriet die Software oftmals in fröhliches Delirieren. Einen "Alptraum" nennt etwa Swamy Viswanathan von der US-Firma Language Weaver den Versuch, beispielsweise die englische Sprache mit all ihren Nuancen in Regeln zu pressen. "Wörter haben häufig mehrere Bedeutungen, und die Zahl der Kombinationen ist schier unendlich", klagt Viswanathan.

Die Experten von Language Weaver verfolgten daher schon früh ein anderes Konzept. Sie fütterten ihre Systeme mit unzähligen Texten aus dem Internet, die bereits mehrsprachig vorlagen. Der Ansatz der Spezialisten: Fast jeder Satz, jede Phrase ist längst mehrfach übersetzt worden. Reine Statistik reicht daher aus, um ein Sprachkonstrukt zu entschlüsseln.

2. Teil: Och hat dieses statistische Verfahren für Google inzwischen perfektioniert

Um etwa das Beispiel "wir treffen uns im Schloss" zu deuten, fahndet das Programm in seiner Datenbank nach Texten, in denen "treffen" und "Schloss" nah beieinanderstehen. Dann durchforstet es die Übersetzungen dieser Texte und findet dort häufig das Wort "castle". Daher gibt die Maschine "we meet in the castle" und nicht "we meet in the lock" aus.

Och hat dieses statistische Verfahren für Google inzwischen perfektioniert. Schon während seiner Promotion spezialisierte sich der Franke auf Spracherkennung. Danach ging er an die University of Southern California. Bald interessierte sich das Pentagon für seine Arbeit. Nach 9/11 wollten die US-Geheimdienstler arabische Zeitungen, Chatrooms und Websites verschärft kontrollieren.

Doch 2004 lockte Google den Sprachbezwinger nach Mountain View. Dort kommt Och seither die gewaltige Rechenleistung des Internetimperiums zugute. Zahlen mag Och nicht nennen. Für viele Sprachpaare lagern jedoch Billionen Einträge in den Google-Datenbanken. Wichtige Ressourcen für das Wortarchiv sind etwa die in zahlreiche Sprachen übersetzte Bibel, Transkripte der Vereinten Nationen oder die 23-sprachigen EU-Dokumente.

Solcherlei "Paralleltexte" sind so etwas wie der Stein von Rosette des Digitalzeitalters: Das antike Vorbild trägt dieselbe Inschrift in Griechisch, Demotisch und in Hieroglyphen. 1822 lüftete der Ägyptologe Jean-Francois Champollion mit ihrer Hilfe das Geheimnis der Hieroglyphen.

Genauso macht es nun Ochs Software. Die Stärken des Systems: Ein und derselbe Programmcode funktioniert für alle Sprachen. Es muss nur genug übersetzter Text vorliegen.

Sawaf kritisiert zudem, dass Ochs System nur online funktioniert.

Ein Buchstabenfresser als Universaldolmetscher? Viele Linguisten halten derlei Rechenschiebertricks für Tinnef. "Die statistische Übersetzung stößt schnell an ihre Grenzen", sagt etwa der Sprachwissenschaftler Martin Kay von der Stanford University, "der Ansatz ignoriert die komplexe Struktur von Sprache." Bei der im Deutschen üblichen Stellung von Vollverb und Hilfsverb etwa versage die Technik. Auch an der Unterscheidung von Subjekt und Objekt habe sie zu knapsen.

"Für wirklich gute Ergebnisse müssen wir tiefer in die Sprache eintauchen", sagt auch Hassan Sawaf, Chefentwickler der US-Software-Schmiede Apptek. Die Firma geht einen Mittelweg. Neben statistischen Algorithmen nutzt Sawaf auch klassische Grammatikregeln: "Das verbessert den Satzbau und die Verständlichkeit erheblich."

Sawaf kritisiert zudem, dass Ochs System nur online funktioniert: "Wer offline arbeitet, kann 'Google Translate' vergessen." Auch Waibel ist skeptisch. "Stellen Sie sich vor, Sie sind im Ausland, wollen sich mit einem Verkäufer unterhalten und müssen erst mal ein Netz suchen und dann auch noch hohe Roaming-Gebühren bezahlen - praktikabel ist das nicht."

Tatsächlich stellt die Netzabhängigkeit eine der größten Schwächen der Google-Übersetzungsmaschine dar. Doch die Kalifornier weichen nicht von ihrem Kurs ab. Schon entwickeln sie eine spezielle Programmversion mit integrierter Spracherkennung für das hauseigene Handy-Betriebssystem "Android". Und bald soll es auch möglich sein, Texte auf Fotos blitzschnell übersetzen zu lassen. So könnte der ortsunkundige Reisende künftig in China das Schild mit der Aufschrift ablichten - und wüsste umgehend, dass er sich auf dem Weg nach Peking befindet.

"Wer kein Englisch spricht, kann nur einen Bruchteil des Internets nutzen"

Eine weitere Gelddruckmaschine für den Internetgiganten scheint also heranzureifen. Doch Och winkt ab. Wie viele Google-Mitarbeiter wähnt er sich lieber auf einem Feldzug für Freiheit und Gleichheit im Netz. "Wer kein Englisch spricht, kann nur einen Bruchteil des Internets nutzen", sagt er. Es gelte, die Vielfalt allen zugänglich zu machen.

Ein Indiz für die hehren Absichten des Programmierers gibt es immerhin. Och und sein Team haben eine Spezialsoftware entwickelt, mit deren Hilfe Dolmetscher auf eigene Faust Übersetzungen in das System einspeisen können - und zwar auch für äußerst exotische Idiome wie die Bantusprache Xhosa, die Sprache der in Japan lebenden Ainu oder die Inuit-Sprache Inuktitut. Auf diese Weise wollen die Software-Entwickler auch jenen Zungen Gehör verschaffen, die bereits in Vergessenheit zu geraten drohen. Der neuseeländische Computeringenieur Te Taka Keegan von der University of Waikato testete das Programm bereits für die Sprache der Maori. Sechs Monate verbrachte Keegan kürzlich bei Google, um auszuloten, ob das digitale Sprachenmirakel aus Mountain View das Idiom der neuseeländischen Ureinwohner vor dem Verschwinden bewahren könnte. Seine Erfahrungen sind durchweg positiv.

"Die Zahl und Qualität der Maori-Übersetzungen wächst mit Hilfe dieses Werkzeugs ständig", berichtet Keegan. Ein digitales Archiv entstehe, das der Sprache erheblichen Auftrieb verleihe.

"Unsere Kinder wachsen in eine digitale Welt hinein", sagt Keegan. "Nur wenn wir es schaffen, Maori zum Teil dieser Welt zu machen, wird die Sprache überleben."

__________________________________________________THE BOTTOM LINE________________________________________________________