taz.de/1/!5022831 - Gopher HTTP proxy

  URI:

       # taz.de -- Aus Le Monde diplomatique: Es wird Hunde und Katzen regnen
       
       > Der Übersetzungsdienst von Google liefert komplett sinnfreie Sätze. Er
       > legt einen Zwischenschritt über das Englische ein.
       
   IMG Bild: In Tokio: Ob der Übersetzer für Katzensprache bessere Ergebnisse liefert?
       
       Wenn man vor einigen Wochen im Online-Übersetzungsservice von Google die
       italienische Entsprechung für den französischen Satz „Cette fille est
       jolie“ (Dieses Mädchen ist schön) gesucht hat, bekam man den Vorschlag:
       Questa ragazza è abbastanza (Dieses Mädchen ist ziemlich).
       
       Wie kann eine der leistungsstärksten Übersetzungsmaschinen der Welt, deren
       Sprachkapital aus Milliarden von Sätzen besteht, ein solch grober Fehler
       unterlaufen? Die Antwort ist einfach: Die Übersetzung nimmt den
       Zwischenschritt über das Englische. „Jolie“ heißt auf Englisch „pretty“,
       und „pretty“ wird hier in der Bedeutung von „ziemlich“ mit „abbastanza“
       übersetzt.
       
       Oder aus „Je pense que vous avez un président magnifique“ (Ich denke, Sie
       haben einen großartigen Präsidenten) wird Penso che tu abbia una bella
       sedia (Ich denke, Sie haben einen schönen Stuhl), weil „président“ nicht
       mit „Präsident“, sondern mit „chair“ übersetzt wurde, was sowohl Präsidium
       als auch Stuhl bedeuten kann.
       
       Neben komplett sinnfreien oder unfreiwillig komischen Wendungen wie dieser
       kann auch das Gegenteil herauskommen: Hai fatto un compito terrificante (Du
       hast eine schrecklich schlechte Arbeit gemacht) übersetzt Google mit „Tu as
       fait un travail formidable“ (Du hast eine hervorragende Arbeit gemacht),
       weil das Englische „terrific“ je nach Kontext mit „fürchterlich“ oder
       „hervorragend“ übersetzt werden kann.
       
       ## Die Referenz ist Englisch
       
       Oder die idiomatische Wendung „Il pleut des cordes“ (Es regnet Bindfäden)
       verwandelt sich in ein pseudopoetisches Piove cani e gatti (Es regnet Hunde
       und Katzen) – nur ist diese wörtliche Übersetzung von „It rains cats and
       dogs“ nicht nur dem italienischen Muttersprachler fremd.
       
       Um eine Übersetzungsmaschine zu entwickeln, benötigt man umfangreiche
       Korpora an identischen, in verschiedene Sprache übersetzten Texten. Der
       US-Konzern Google hat sein Übersetzungsprogramm auf Textpaaren aufgebaut,
       die fast immer Englisch als Referenzsprache benutzen. Dabei kommt es jedoch
       zu einer sprachlichen Verzerrung.
       
       Während sich das Französische und Italienische ähnlich sind, funktioniert
       Englisch deutlich anders; die Sprache ist ausgesprochen vieldeutig und
       reich an idiomatischen Wendungen. Ohne den Kontext zu kennen, muss eine
       automatisierte Übersetzung aus dem Englischen fehlschlagen.
       
       Andererseits verraten uns die Fehler der Maschine auch einiges über die
       Spezifika der jeweiligen Sprachen. Früher oder später werden die
       Übersetzungsmaschinen durch die Entwicklung zweisprachiger Korpora, die
       ohne die Vermittlung des Englischen auskommen, und durch die Korrekturen,
       die die User selbst eingeben, zuverlässigere Ergebnisse liefern.
       
       ## „Wir gehen drücken“
       
       Vielleicht werden die oben zitierten Fehler schon korrigiert sein, wenn wir
       diese Ausgabe von Le Monde diplomatique in Druck geben oder, wie es im
       Französischen heißt, „mettons sous presse“, was Google im Spanischen mit
       Vamos a presionar (Wir gehen drücken) übersetzt.
       
       Um die Konsequenzen zu ermessen, die sich aus der Verwendung des Englischen
       als Brückensprache ergeben, muss man die automatische Übersetzung in den
       Kontext von Texten stellen, die auf Algorithmen basieren. Diese
       Computerprogramme bringen im Rahmen vollautomatischer Übersetzungen nicht
       nur sprachliche Neuerungen hervor.
       
       Sie werden zum Beispiel auch eingesetzt für automatisch generierte
       Presseberichte, für die syntaktische und semantische Korrektur von
       Wikipedia-Einträgen, für Werbespots oder die Verschlagwortung einer
       Website, um diese suchmaschinengerecht zu optimieren.
       
       Wie lassen sich nun aber primäre, von Menschen ohne Hilfe von Algorithmen
       erzeugte Sprachressourcen (verschriftlichte Gespräche, Inhalte von
       digitalisierten Büchern et cetera) von sekundären Sprachressourcen
       unterscheiden, die aus algorithmischen Transformationen hervorgegangen
       sind? Durch die Autocomplete-Funktion, die mittlerweile beinahe alle
       Eingabeoberflächen besitzen – man tippt den Anfang eines Wortes und ein
       Programm vervollständigt die sprachliche Äußerung –, sind Algorithmen, wenn
       wir online schreiben, zu unseren ständigen Vermittlern geworden.
       
       ## Der Suchbaum der Ausdrücke
       
       In vielen Fällen verfassen wir unsere Texte nicht mehr Buchstabe für
       Buchstabe oder Wort für Wort, sondern begnügen uns damit, zwischen mehreren
       möglichen von Algorithmen vorgeschlagenen Ergänzungen auszuwählen. Diese
       Form des Schreibens verbindet Schnelligkeit mit Effizienz, gerade wenn man
       die reduzierte Tastatur eines Handys benutzt. In diesem neuen Rahmen
       besteht Schreiben nur noch darin, sich für einen Weg im Suchbaum der
       vorhersagbaren Ausdrücke zu entscheiden. In einigen Jahren wird es
       schwierig sein, eine Benutzeroberfläche zu finden, die diese Technologie
       nicht verwendet.
       
       Wie alle sekundären Ressourcen sind auch die durch Übersetzungsmaschinen
       algorithmisch erzeugten Texte nicht unbedingt als solche gekennzeichnet.
       Sie präsentieren sich häufig als primäre, natürliche Spracherzeugnisse, die
       den Lesern als Modell dienen können. Ein Internetnutzer, dessen
       Muttersprache nicht Italienisch ist, hat keinen Grund, die Wendung Piove
       cani e gatti für falsch zu halten.
       
       Dies gilt erst recht für Algorithmen, die mit dem Ziel, künstlich neue
       Texte zu erzeugen, die Sprachstrukturen durchforsten. Ein Algorithmus, der
       eine primäre Quelle sucht, um seine Übersetzungsfähigkeiten zu optimieren,
       kann versehentlich einen durch einen anderen Algorithmus erstellten Text
       verwenden, der einen falschen Sinn enthält.
       
       Die Verbreitung von durch die Arbeit von Algorithmen „verschmutzten“
       Ressourcen im Netz bedroht ein technologisches Gebäude, dem es vor allem um
       Datenmengen und weniger um deren systematische Qualitätskontrolle geht.
       Zahllose Beispiele von seltsamen sprachlichen Wendungen kursieren im
       Internet.
       
       Im App Store, der Onlineboutique, in der Apple seine Software verkauft,
       sind etwa Kommentare zu einer App zu lesen, mit der man im Gehen
       Nachrichten tippen kann: „Intuitiv zu gebrauchen, schöne Ergebnisse und
       wieder gut gelaunt. Danke, der die gemacht hat! Das ist echt cool und
       empfehle.“ Oder: „Es hilft mir, den Text horizontal und vertikal
       einzugeben, SMS zu schicken, E-Mail zu schicken, Nachrichten auf Twitter
       und Facebook zu schicken … sehr lustig, ich danke Ihnen!“
       
       ## Niemals gesprochene Sätze
       
       Solcherlei bizarre, algorithmisch erzeugte Wendungen können in einem
       zweiten Schritt Textvermittlungsdiensten als Modell dienen, die Vorschläge
       zur Vervollständigung des Textes machen, den Sie gerade tippen. Es ist also
       denkbar, dass irgendwann einem Italiener, der einen Satz mit Piove beginnt,
       der Vorschlag Piove cani e gatti angezeigt wird, der wahrscheinlich in der
       gesamten Geschichte der italienischen Sprache noch niemals gesprochen oder
       geschrieben wurde.
       
       Die Referenzsprache Englisch wirkt damit potenziell an einem
       Kreolisierungsprozess mit: der Bildung einer neuen Sprache auf der
       Grundlage von Transformationen älterer Sprachen – ein Phänomen, das
       Linguisten wohlbekannt ist. Die gegenwärtigen, durch die Algorithmen
       verursachten Veränderungen haben eine Art Mischsprache, eine potenziell
       kurzlebige Kontaktsprache zwischen zwei Sprachsystemen entstehen lassen.
       
       Da eine junge Generation von Sprachbenutzern mit diesen gewandelten
       Ausdrucksformen selbstverständlich umgeht, könnte sie sich zu einer
       kohärenten und eigenständigen Sprache, einem Kreol, entwickeln. Dies könnte
       durch die Vermittlung der neuen Eingabeoberflächen beschleunigt werden, die
       als quasi vertraute Sprachprothesen die zukünftigen Ausdrucksformen prägen.
       
       Der Sprachimperialismus des Englischen hat daher viel subtilere
       Auswirkungen, als es die auf den „Krieg der Sprachen“ gerichtete Kritik
       vermuten lässt. Dient ein einziges Idiom als Referenzsprache, führt das
       dazu, dass dessen Logik und Eigenheiten auf andere Sprachen abfärben und
       damit auch unmerklich auf die spezifische Art, in der in einer Sprache
       gedacht wird. Diese Entwicklung könnte auch an einer globalen
       Sprachveränderung mitwirken, bei der den Algorithmen eine Schlüsselrolle
       zukommt.
       
       Wie Englisch für die europäischen Sprachen als Brückensprache fungiert, so
       übernehmen in anderen Sprachgebieten andere Sprachen diese Position. Damit
       etabliert sich ein weltweites Übersetzungsnetzwerk, das über mehrere
       Vermittlungsidiome funktioniert. Wer wird in fünf Jahren noch Texte ohne
       das Zutun von Algorithmen schreiben? Wie viel Zeit wird vergehen, bis die
       ersten durch Algorithmen entstandenen Sprachprodukte als natürliche Formen
       wahrgenommen werden? Diese hybriden Schrifterzeugnisse erfordern ein
       aufmerksames Studium sowie eine neue Linguistik, die selbst mit Algorithmen
       arbeitet, um deren Auswirkungen besser verstehen und kontrollieren zu
       können.
       
       25 Jan 2015
       
       ## AUTOREN
       
   DIR Frédéric Kaplan
   DIR Dana Kianfar
       
       ## TAGS
       
   DIR Algorithmen
   DIR Sprache
   DIR Übersetzer
   DIR Google
   DIR Datenbrille
   DIR Google
   DIR Roboter
       
       ## ARTIKEL ZUM THEMA
       
   DIR Google Glass wird nicht mehr verkauft: Zurück ins Labor
       
       Die Computerbrille Google Glass ist seit 2012 nie über den Status eines
       umstrittenen Pilotprojekts hinausgekommen. Jetzt wird die erste Version
       nicht mehr verbreitet.
       
   DIR Alternativen für die Suche im Internet: Es geht auch ohne Google
       
       Viele fluchen über die „Datenkrake“, googlen sich dann aber trotzdem weiter
       durchs Web. Das muss nicht sein: Es gibt andere Suchmöglichkeiten.
       
   DIR Autonome Roboter im Straßenverkehr: Der Fahrer in der Maschine
       
       Bald könnten selbststeuernde Fahrzeuge auf Straßen unterwegs sein. Doch
       dürfen sie in Unfallsituationen entscheiden, wer lebt und wer stirbt?