taz.de/1/Ideologie-und-kuenstliche-Intelligenz/!5907912

  URI:

# taz.de -- Ideologie und künstliche Intelligenz: Geschichten von morgen

> Auch wenn sie tolle Texte schreiben, KIs haben ein Problem: Sie werden
> vorwiegend mit westlichen Quellen trainiert. Mehr Diversität ist nötig.

IMG Bild: So antwortet eine KI auf die Anforderung „ein Astronaut reitet ein Pferd“ (Ausschnitt)

[1][Die Sprach-KI ChatGPT] hat einen riesigen Hype ausgelöst. Das
automatisierte Dialogsystem, das von der US-Softwareschmiede Open AI
entwickelt wurde, bearbeitet auf Knopfdruck Anfragen. Man gibt einfach eine
Frage oder Anweisung in das Chatfenster ein, Sekunden später schickt die
KI einen druckreifen Text. Bewerbungen, Drehbücher, Gedichte – das
Sprachmodell beherrscht alle Textgattungen. Sogar beim Programmieren kann
das Tool helfen: Es schreibt auch Codes.

Die KI, die mit einer riesigen Textmenge aus verschiedenen Internetquellen
trainiert wurde, errechnet auf Basis eines statistischen Modells eine
Wahrscheinlichkeit für das Auftreten des nächsten Wortes. Die sprachliche
Qualität der Texte ist beeindruckend – erschreckend beeindruckend sogar.
Wie von Geisterhand schreibt der Bot Texte so sehr im Stile von Franz Kafka
oder Ernest Hemingway, dass man meinen könnte, die Literaten hätten
wiederauferstanden selbst in die Tasten gegriffen.

[2][In der zuweilen sehr technisch geführten Diskussion wird jedoch ein
Umstand oft außer Acht gelassen: Computerprogramme sind Artefakte und damit
auch kulturell geprägt.] KI-Systeme und Sprachmodelle im Besonderen werden
von Menschen programmiert. Und die implementieren nicht nur mathematische,
sondern auch soziale Werte. ChatGPT ist schon jetzt eine
Storytelling-Maschine, die es mit der Diskursmacht von Disney oder
Hollywood aufnehmen könnte. Die Frage, wie dieses Computersystem lernt, hat
daher auch gesellschaftspolitische Relevanz.

## Der Umgangston von BBC und Reddit

Schaut man sich das Vorgängermodell GPT-3 an, fällt auf, dass die KI mit
überwiegend englischsprachigen Texten trainiert wurde. [3][60 Prozent der
Trainingsdaten stammen aus dem Webarchiv des Common Crawl,] einer
kalifornischen Nichtregierungsorganisation, die nach eigenen Angaben 50
Milliarden Webseiten archiviert hat. Darunter sind seriöse Quellen wie die
New York Times und BBC, aber auch weniger verlässliche wie das Online-Forum
Reddit, eine Art Internet-Stammtisch, wo sich Nutzer auch mal Aktientipps
geben oder Verschwörungstheorien diskutieren.

Schon allein mit dieser Quellenauswahl wird also ein bestimmtes Weltbild
transportiert. Der Rest des Trainingsmaterials stammt unter anderem aus
Büchersammlungen und Wikipedia. Das Online-Lexikon, mit dessen rund sechs
Millionen englischsprachigen Artikeln auch ChatGPT gefüttert wurde, ist
noch immer ein Club von weißen, englischsprachigen Männern, die überwiegend
in christlich geprägten Ländern auf der Nordhalbkugel leben. Und diese
Männer schreiben hauptsächlich für Männer und über Männer. Aktuell sind
lediglich [4][rund 17 Prozent der Biografien auf der deutschen Wikipedia
jene weiblicher Personen].

[5][Zwar macht Wikipedia nur einen kleinen Teil der Trainingsdaten aus (die
Gewichtung bei GPT-3 lag bei 3 Prozent).] Durch die Mechanik von Sprach-KIs
wird dieser Gender Bias jedoch verstärkt.

Die zugrundeliegende Technik der Rekombinatorik sorgt nämlich dafür, dass
manche Wortkombinationen in häufigerer Frequenz auftauchen und Stereotype
förmlich aneinanderkleben. So haben Forscher der Entwicklerorganisation
Open AI in einer Studie herausgefunden, dass GPT-3 weibliche Pronomina mit
tendenziell sexistischen Adjektiven wie „naughty“ (unanständig, verrucht)
und „gorgeous“ (wunderschön) verknüpft, während Männern eher
geschlechtsneutrale Eigenschaften wie „sympathisch“ oder „groß“
zugeschrieben werden. Vor diesem Hintergrund verwundert es nicht, dass das
Sprachmodell auch bei den Weltreligionen stereotype Muster zeigt: So
brachte GPT-3 den Islam mit Worten wie „gewaltsam“ und „Terrorismus“ in
Verbindung. Ist die künstliche Intelligenz islamophob?

Ein solches Urteil griffe gewiss zu kurz. Computer können schon allein
deshalb keine Islamhasser sein, weil es ihnen an einem Bewusstsein fehlt.
Aber sie reproduzieren eben auch Vorurteile ihrer Entwickler. Und das sind
überwiegend weiße Männer aus der amerikanischen Mittel- und Oberschicht.
Insofern ist KI auch ein Spiegel der Gesellschaft.

## „Orientalistische Machtstrukturen“

Die Bloggerin Francesca Scapolo kritisierte [6][in einem Essay für die
Plattform „Medium“, „westliche Algorithmen“ würden „orientalistische
Machtstrukturen perpetuieren“.]

Die romantisierte Darstellung des Vorderen und Mittleren Orients, die als
Legitimationsfolie für die kolonialen und imperialistischen Bestrebungen
diente, und die daraus resultierenden Terrorismus-Diskurse würden durch
Sprachmodelle wie GPT-3 zementiert. Wo sich die Sprach-KI einerseits am
Kanon westlicher Kultur bedient, ist sie andererseits auf die Handarbeit
von Menschen angewiesen, deren Kultur sie weitgehend ausblendet. So wurde
bekannt, dass Open AI Clickworker in Kenia anheuerte, die für 2 Dollar die
Stunde sexistische und gewaltverherrlichende Texte labeln. Dieses
Outsourcing zeigt einmal mehr, wie die Plattformökonomie Menschen im
Globalen Süden für ihre datenhungrigen Maschinen ausbeutet.

Die kulturalistische Sichtweise setzt sich auch an anderer Stelle fort –
zum Beispiel bei dem Bildgenerator DALL-E. Das Tool, das ebenfalls von Open
AI stammt, verwandelt im Handumdrehen Texte in Bilder. Das Ölgemälde über
Amerikas Krieg gegen den Terror zum Beispiel, welches die Bild-KI entwarf,
steht in der Tradition europäischer Maler und erinnert in seiner düsteren
Bildersprache an Caspar David Friedrich.

Kunstkritiker wenden ein, dass der Bildgenerator eurozentrisch und
vergangenheitsorientiert sei und ästhetische Ideale anderer Weltregionen
ausblende – wobei die Vergangenheitsfixierung auch in der Funktionsweise
von KI-Systemen begründet liegt, deren Algorithmen aus „historischen“ Daten
lernen. Dieser Modus Operandi wirft zum einen die Frage auf, welche
ästhetischen Kriterien man künftig an Originalität anlegt, zum anderen, ob
durch ein „Datawashing“ koloniale Betrachtungsweisen neu beglaubigt werden.
Wie „weiß“ sind computergenerierte Werke?

## Dekolonialisierung von KI

Zwar gibt es für DALL-E eigene Tools, mit denen sich beispielsweise
japanische Drucke imitieren lassen. Aber das zugrundeliegende Weltbild
bleibt – es lässt sich nicht mit einem Mausklick wegretuschieren. Der
KI-Forscher Yilun Du brachte es auf den Punkt: „Man kann ein Modell nicht
weniger westlich feintunen, wenn der Datensatz zum größten Teil westlich
ist.“ Die Rufe nach einer Dekolonialisierung von KI werden daher lauter. In
Afrika laufen Projekte im Bereich des Natural Language Processing (NLP), wo
es nicht nur darum geht, Sprachmodelle auf eine breitere Datengrundlage zu
stellen, sondern auch darum, afrikanische Erzählkunst zu berücksichtigen.

Die westliche Kultur fängt jedoch gerade erst an, die vielstimmige
afrikanische Literatur zu hören – die Vergabe des Literaturnobelpreises
2021 an den tansanischen Schriftsteller Abdulrazak Gurnah liefert davon
Zeugnis. Wie also lässt sich mehr Diversität herstellen?

Ein erster Schritt wäre es, den literarischen Kanon zu erweitern. Der
BookCorpus, eine Sammlung von Tausenden Büchern, mit denen alle
einflussreichen Sprachmodelle trainiert werden (neben GPT unter anderen
auch Googles BERT), enthält vor allem Werke, die in der westlichen Kultur
rezipiert werden. Dabei machen es die Fortschritte automatisierter
Sprachsoftware überhaupt erst möglich, auch solche Werke zu erschließen,
deren Übersetzung bislang aus wirtschaftlichen Gründen nicht realisiert
werden konnte – etwa aus dem Indonesischen, wo es viele hierzulande
unbekannte Literaten gibt. Und genau darum geht es: Wer erzählt die
Geschichten von morgen? Menschen aus aller Welt? Oder Maschinen aus den
USA?

26 Jan 2023

## LINKS

DIR [1] /Kuenstliche-Intelligenz-via-ChatGPT/!5903102
DIR [2] https://www.nature.com/articles/d41586-023-00056-7
DIR [3] https://arxiv.org/pdf/2005.14165.pdf
DIR [4] https://de.wikipedia.org/wiki/Wikipedia:WikiProjekt_Frauen/Frauen_in_der_Wikipedia
DIR [5] https://katzlberger.ai/2021/04/12/mit-diesen-daten-wurde-gpt-3-trainiert/
DIR [6] https://theintercept.com/2022/12/08/openai-chatgpt-ai-bias-ethics/

## AUTOREN

DIR Adrian Lobe

## TAGS

DIR Podcast „Vorgelesen“
DIR Schwerpunkt Künstliche Intelligenz
DIR Google
DIR Schwerpunkt Künstliche Intelligenz
DIR Kolumne Der rote Faden
DIR New York Times
DIR Berliner Hochschulen
DIR Volker Wissing
DIR Unternehmen
DIR Bot

## ARTIKEL ZUM THEMA

DIR Studie zu Datenarbeitern: Harte Arbeit, niedriger Lohn

Ohne Datenarbeiter würde KI, wie wir sie kennen, nicht funktionieren. Die
Kehrseiten dieser Arbeit zeigt ein neues Forschungsprojekt.

DIR OpenAI und Microsoft verklagt: New York Times gegen ChatGPT

ChatGPT verletze das Urheberrecht, sagt die NYTimes. Deswegen geht das
Medienhaus jetzt rechtlich gegen OpenAI vor – anders als die deutschen
Verlage.

DIR Künstliche Intelligenz: Denken oder Denken lassen?

Wenn künstliche Intelligenz sich um den Ämterquatsch kümmert, könnte man
mal wieder Zeit haben, einen vernünftigen Gedanken zu fassen.

DIR Nach offenem Brief an „New York Times“: Nicht ohne Haltung

Es wird wieder leidenschaftlich über Journalismus und Aktivismus
diskutiert. Aber wer legt fest, was objektiv und was ideologisch ist?

DIR Künstliche Intelligenz an Berliner Unis: Textgenerator? Läuft!

Wie gehen Berliner Hochschulen mit Arbeiten um, die möglicherweise von KI
verfasst wurde? Verbieten geht nicht, heißt es an der Technischen Uni.

DIR Künstliche Intelligenz in Deutschland: Wissing gegen mehr KI-Regulierung

Programme wie das Sprachsystem ChatGPT entwickeln sich schnell weiter. Der
Digitalminister sieht große Chancen – und will keine strengen Regeln für
KIs.

DIR Künstliche Intelligenz: Faktenfreiheit zum Mitnehmen, bitte

Algorithmen und Moral haben auf den ersten Blick wenig gemeinsam. Doch der
gehypte Chatbot GPT zeigt, wie gefährlich es ist, die Ethik zu vergessen.

DIR Künstliche Intelligenz via ChatGPT: Alles verändert?

Eine KI, die für uns Texte schreibt? Klingt toll. Und ist inzwischen
Wirklichkeit. ChatGPT ist lustig, eloquent – und gefährlich.