URI: 
       # taz.de -- Gender Bias bei Übersetzungsoftware: Treffen sich zwei Ärztinnen
       
       > Maschinelle Übersetzungen sind nicht neutral, sondern geprägt von
       > männlicher Norm. Sie reproduzieren real existierende Zuschreibungen.
       
   IMG Bild: Bei Google Translate wird „the nurse“ automatisch zur „Krankenschwester“
       
       Wer bei Google Translate „the doctor“ eingibt, sieht im Feld nebenan als
       Übersetzung den Begriff „der Doktor“. „The nurse“ wird zur
       „Krankenschwester“. Dabei könnte es auch „die Ärztin“ und „der
       Krankenpfleger“ heißen, denn beide englische Begriffe sind an kein
       Geschlecht gebunden.
       
       Dass maschinelle Übersetzungsdienste ihre Grenzen haben, was natürlich
       klingende Übertragungen in eine Zielsprache angeht, haben die meisten von
       uns bereits selbst erfahren. Weniger bekannt sind die geschlechtsbezogenen
       Verzerrungseffekte der Programme – [1][man spricht vom sogenannten Gender
       Bias.]
       
       Automatisierte Übersetzungen sind für viele Menschen mittlerweile
       alltäglich. Wir verwenden sie im Büro, auf Reisen oder in den sozialen
       Medien. Hat man im Gespräch einen wichtigen Begriff nicht parat oder
       versteht einen Post auf Facebook nicht, ist das Problem mit einem Klick
       gelöst. Dabei sollten wir uns jedoch bewusst machen: Maschinelle
       Übersetzungen sind nicht so neutral, wie sie auf den ersten Blick wirken.
       
       Am deutlichsten illustrieren lässt sich der Gender Bias an Sprachen, die
       nur ein Pronomen für alle Geschlechter kennen, wie etwa das Finnische. Der
       Satz „Hän on opettaja“ könnte gleichermaßen „Sie ist Lehrerin“ oder „Er ist
       Lehrer“ heißen. Die Übersetzungsmaschine hat also zwei Möglichkeiten:
       Entweder bietet sie beide Optionen als Übersetzung an oder sie entscheidet
       sich für ein Geschlecht. Aus unserem Beispiel macht sowohl Google als auch
       das Kölner Unternehmen DeepL, dessen Übersetzungen häufig besser als bei
       der Konkurrenz funktionieren: „Er ist Lehrer“. Bei einer Aussage über eine
       Person, die im Kindergarten arbeitet, erscheint hingegen der Satz: „Sie ist
       Kindergärtnerin.“
       
       ## Vorurteile werden ständig reproduziert
       
       Was hier geschieht: Die Übersetzungsmaschine spiegelt gesellschaftliche
       Vorurteile wider. Und das rührt von den Texten her, auf deren Grundlage die
       Übersetzungen erstellt werden. Automatisierte Systeme basieren auf Daten.
       Im Falle von Übersetzungen sind das Datenbanken, die Textpaare aus je zwei
       Sprachen enthalten. Doch Daten sind keine neutralen Informationen aus dem
       luftleeren Raum. [2][Welche Bilder, Klischees oder Verzerrungen sie
       enthalten, bestimmt, wie ein Textstück übersetzt wird.]
       
       Stichproben zeigen, dass der Gender Bias weit über Berufsklischees
       hinausgeht. Auch Adjektive werden Subjekten entsprechend gängiger
       Vorurteile zugewiesen. Beginnen wir erneut einen finnischen Satz mit „Hän
       on“ und ergänzen Adjektive wie stark, muskulös oder intelligent, bezieht
       sich der Satz in der Übersetzung bei Google Translate auf eine männliche
       Person – herauskommt etwa: „Er ist stark.“ Wählt man jedoch Adjektive wie
       schön oder kinderlieb, wird die Übersetzung weiblich. Dies lässt sich damit
       erklären, dass das Programm in seinem Lernprozess Wörter in einen
       Zusammenhang stellt, die in den zugrundeliegenden Texten häufig nahe
       beieinander stehen. Vorurteile werden so durch die Übersetzungen ständig
       reproduziert.
       
       Doch nicht immer basiert die Verzerrung allein auf den zugrundeliegenden
       Paralleltexten. Zusätzlich ins Gewicht fällt, dass für viele seltenere
       Sprachpaare nicht genügend Referenztexte vorliegen und deshalb ein Umweg
       über eine dritte Sprache genommen wird: Die Ausgangssprache wird zunächst
       in die Brückensprache übersetzt und von dort aus weiter in die Zielsprache.
       
       Das weltweite Vorherrschen der englischen Sprache lässt diese zur
       Brückensprache der Wahl werden. Doch da sich im Englischen viele Begriffe
       nicht auf ein bestimmtes Geschlecht beziehen, können auf dem Umweg Inhalte
       verlorengehen. Spricht der Ausgangssatz beispielsweise von einer Ärztin,
       welche im Englischen zum neutralen Begriff „doctor“ wird, ergibt sich
       daraus im Zielsatz vermutlich aufgrund der zugrundeliegenden Textkorpora
       ein „Arzt“. So kann die Fixierung auf die englische Sprache als Standard
       Übersetzungen verzerren.
       
       ## Wie wichtig sind Identität und Erfahrung?
       
       Doch bei bloßen Verzerrungen bleibt es nicht. Nehmen wir den deutschen
       Satz: „Zwei Ärztinnen und zwei Ärzte treffen sich.“ Da sowohl Ärztinnen als
       auch Ärzte im Englischen unter „doctors“ laufen, nimmt der
       Übersetzungsdienst eine versehentliche Doppelung an. So wird aus dem
       Ausgangssatz nicht etwa „Two doctors and two doctors meet“, sondern
       schlichtweg „Two doctors meet“. Übrig bleiben also nicht vier medizinische
       Fachkräfte, sondern nur mehr zwei.
       
       Das gleiche falsche Ergebnis erhält man etwa auch bei einer Übersetzung ins
       Spanische, obwohl hier ein weiblicher Begriff existiert. Im Gegensatz zu
       Google Translate generiert DeepL allerdings einen Satz mit explizit
       genannten weiblichen und männlichen Subjekten: „Two female doctors and two
       male doctors meet.“
       
       Dass die Übertragung von Texten kein neutrales, gänzlich unpolitisches
       Terrain ist, fällt nicht nur bei maschinellen Übersetzungen auf, sondern
       war auch Thema kritischer Berichterstattung im Fall des Gedichts der
       amerikanischen Lyrikerin Amanda Gorman. Nicht nur in Deutschland wurde die
       Frage gestellt, wer geeignet sei, das Werk der Schwarzen Autorin ins
       Deutsche zu übertragen und [3][wie wichtig bei der Auswahl Identität und
       Erfahrung der übersetzenden Person sein sollten.]
       
       Die Erfahrung einer Übersetzungsmaschine basiert auf dem, was ihr
       beigebracht – in sie eingespeist – wurde. Und so tritt nicht nur ein Gender
       Bias zu Tage, sondern auch andere Machtdimensionen lassen sich ausmachen.
       Mit dem Begriff „beurette“ werden in Frankreich Frauen bezeichnet, deren
       familiäre Geschichte man in Nordafrika verortet. Das Wort kann Beleidigung
       sein, wird aber teils auch von Aktivist:innen als Selbstbezeichnung
       verwendet.
       
       Besonders weitverbreitet ist es allerdings in der Pornoindustrie, wo
       exotisierende Fantasien über „Araberinnen“ bedient werden sollen. Wie
       AlgorithmWatch herausfand, kommt der Begriff in den Textkorpora des
       umfangreichen Datensets ParaCrawl in insgesamt 228 Sätzen vor – 222 davon
       stammen offenbar von Porno-Websites. Die Maschine lernt also Begriffe in
       einem Kontext kolonialer, sexistisch-rassistischer Narrative.
       
       ## Die Datengrundlage
       
       Doch an genau diesem Kontext orientiert sich das Programm, wenn es seine
       Worte und Kombinationen wählt. Ein Ansatz, den Gender Bias zu reduzieren,
       ist daher Forscher:innen zufolge, die Kategorie Gender als Metadaten ins
       System mit einzuspeisen.
       
       Für eine Studie wurden dafür Sätze in einer großen Textdatenbank durch das
       jeweilige Geschlecht der Sprechenden ergänzt, was für einige Sprachenpaare
       zu akkurateren Übersetzungen führte. Auch andere technische Lösungen sind
       denkbar, etwa eine Duplizierung von Sätzen: Hier werden in den Textdaten
       zum Beispiel männlich konnotierte Sätze durch den jeweils gleichen Satz in
       weiblicher Form ergänzt, um die Verzerrung hin zum männlichen Geschlecht
       auszugleichen. Und nicht zuletzt kommt es auch auf die Auswahl der
       Datensets selbst an: Diese sind zwar groß, aber niemand überprüft, wie
       realistisch sie unsere Gesellschaft darstellen. Außerdem bleibt die Frage
       offen, wie sich die Systeme für andere Geschlechtsidentitäten als männlich
       und weiblich öffnen ließen.
       
       Einige Verbesserungsmöglichkeiten werden von den Konzernen hinter den
       Übersetzungsprogrammen bereits erprobt, etwa die Anfertigung von
       Übersetzungen ohne die Verwendung von Brückensprachen. In einigen wenigen
       Fällen spucken Programme bei neutralen Begriffen auch heute schon eine
       weibliche und eine männliche Form aus. Allerdings können selbst kleinste
       Anpassungen im Ausgangstext – etwa die Verwendung eines Artikels oder
       Großschreibung – das Ergebnis verändern. Das macht deutlich, wie
       fehleranfällig die Systeme aktuell noch sind. Aber sollten wir überhaupt in
       die Abläufe eingreifen? Spiegeln die Übersetzungen nicht schlichtweg die
       realen Verhältnisse der Welt mit all ihren Ungerechtigkeiten wider?
       
       Nein, denn die genutzten Daten sind zum einen häufig veraltet, zum anderen
       durch eine Überrepräsentation an Männlichkeit verzerrt. So entstehen neben
       Ergebnissen, die Vorurteile potenzieren auch schlicht falsche
       Übersetzungen. Deshalb braucht es für weitreichendere Entschärfungen des
       Gender Bias in Übersetzungsprogrammen nicht nur Computerspezialist:innen,
       sondern auch eine engere Zusammenarbeit mit Expert:innen aus anderen
       Disziplinen wie den Gender Studies. Wenn Übersetzungsmaschinen als
       vorurteilsfreie Sprachendienstleister auftreten wollen, muss die
       männlich-weiße Norm in ihren Daten entmachtet werden.
       
       19 May 2021
       
       ## LINKS
       
   DIR [1] /Dokumentarfilm-Coded-Bias/!5770648
   DIR [2] /Lernende-Maschinen/!5755050
   DIR [3] /Rassismus-in-Algorithmen/!5693454
       
       ## AUTOREN
       
   DIR Nadja Kutscher
       
       ## TAGS
       
   DIR Schwerpunkt Rassismus
   DIR Schwerpunkt Gender und Sexualitäten
   DIR Podcast „Vorgelesen“
   DIR GNS
   DIR Daten
   DIR Schwerpunkt Künstliche Intelligenz
   DIR Algorithmus
   DIR Schwerpunkt Rassismus
   DIR Diskriminierung
   DIR Datenschutz
   DIR Roboter
   DIR Schwerpunkt Rassismus
       
       ## ARTIKEL ZUM THEMA
       
   DIR KI statt Parlamentarier*nnen: Wunsch nach automatisierter Politik
       
       Laut einer Studie würde eine Mehrheit Politiker*innen durch KI
       ersetzen. Doch das wäre keine Chance, sondern eine Gefahr für Demokratie.
       
   DIR Diskriminierung in Videochats: Eine KI ist auch nur ein Mensch
       
       Die Klangfilter von „Zoom“ und Co lassen Stimmen von Frauen weniger
       ausdrucksstark erscheinen – und bewirken eine strukturelle Benachteiligung.
       
   DIR Dokumentarfilm „Coded Bias“: Einäugige Maschinen
       
       Menschen können rassistisch und sexistisch sein – so wie die Algorithmen,
       die uns das Leben erleichtern: Die Hamburger W3 zeigt die Doku „Coded
       Bias“.
       
   DIR Lernende Maschinen: Entscheiden muss der Mensch
       
       Noch kratzen Forscher:innen bei der Künstlichen Intelligenz an der
       Oberfläche. Vieles ist bisher nur Wunsch und Utopie.
       
   DIR Facebooks Algorithmen werden geprüft: Diskriminierung im System
       
       Der Internetkonzern Facebook will untersuchen, ob seine Algorithmen
       rassistisch diskriminieren. Dabei ist längst bekannt, dass sie das tun.