URI: 
       # taz.de -- Ideologie und künstliche Intelligenz: Geschichten von morgen
       
       > Auch wenn sie tolle Texte schreiben, KIs haben ein Problem: Sie werden
       > vorwiegend mit westlichen Quellen trainiert. Mehr Diversität ist nötig.
       
   IMG Bild: So antwortet eine KI auf die Anforderung „ein Astronaut reitet ein Pferd“ (Ausschnitt)
       
       [1][Die Sprach-KI ChatGPT] hat einen riesigen Hype ausgelöst. Das
       automatisierte Dialogsystem, das von der US-Softwareschmiede Open AI
       entwickelt wurde, bearbeitet auf Knopfdruck Anfragen. Man gibt einfach eine
       Frage oder Anweisung in das Chatfenster ein, Sekunden später schickt die
       KI einen druckreifen Text. Bewerbungen, Drehbücher, Gedichte – das
       Sprachmodell beherrscht alle Textgattungen. Sogar beim Programmieren kann
       das Tool helfen: Es schreibt auch Codes.
       
       Die KI, die mit einer riesigen Textmenge aus verschiedenen Internetquellen
       trainiert wurde, errechnet auf Basis eines statistischen Modells eine
       Wahrscheinlichkeit für das Auftreten des nächsten Wortes. Die sprachliche
       Qualität der Texte ist beeindruckend – erschreckend beeindruckend sogar.
       Wie von Geisterhand schreibt der Bot Texte so sehr im Stile von Franz Kafka
       oder Ernest Hemingway, dass man meinen könnte, die Literaten hätten
       wiederauferstanden selbst in die Tasten gegriffen.
       
       [2][In der zuweilen sehr technisch geführten Diskussion wird jedoch ein
       Umstand oft außer Acht gelassen: Computerprogramme sind Artefakte und damit
       auch kulturell geprägt.] KI-Systeme und Sprachmodelle im Besonderen werden
       von Menschen programmiert. Und die implementieren nicht nur mathematische,
       sondern auch soziale Werte. ChatGPT ist schon jetzt eine
       Storytelling-Maschine, die es mit der Diskursmacht von Disney oder
       Hollywood aufnehmen könnte. Die Frage, wie dieses Computersystem lernt, hat
       daher auch gesellschaftspolitische Relevanz.
       
       ## Der Umgangston von BBC und Reddit
       
       Schaut man sich das Vorgängermodell GPT-3 an, fällt auf, dass die KI mit
       überwiegend englischsprachigen Texten trainiert wurde. [3][60 Prozent der
       Trainingsdaten stammen aus dem Webarchiv des Common Crawl,] einer
       kalifornischen Nichtregierungsorganisation, die nach eigenen Angaben 50
       Milliarden Webseiten archiviert hat. Darunter sind seriöse Quellen wie die
       New York Times und BBC, aber auch weniger verlässliche wie das Online-Forum
       Reddit, eine Art Internet-Stammtisch, wo sich Nutzer auch mal Aktientipps
       geben oder Verschwörungstheorien diskutieren.
       
       Schon allein mit dieser Quellenauswahl wird also ein bestimmtes Weltbild
       transportiert. Der Rest des Trainingsmaterials stammt unter anderem aus
       Büchersammlungen und Wikipedia. Das Online-Lexikon, mit dessen rund sechs
       Millionen englischsprachigen Artikeln auch ChatGPT gefüttert wurde, ist
       noch immer ein Club von weißen, englischsprachigen Männern, die überwiegend
       in christlich geprägten Ländern auf der Nordhalbkugel leben. Und diese
       Männer schreiben hauptsächlich für Männer und über Männer. Aktuell sind
       lediglich [4][rund 17 Prozent der Biografien auf der deutschen Wikipedia
       jene weiblicher Personen].
       
       [5][Zwar macht Wikipedia nur einen kleinen Teil der Trainingsdaten aus (die
       Gewichtung bei GPT-3 lag bei 3 Prozent).] Durch die Mechanik von Sprach-KIs
       wird dieser Gender Bias jedoch verstärkt.
       
       Die zugrundeliegende Technik der Rekombinatorik sorgt nämlich dafür, dass
       manche Wortkombinationen in häufigerer Frequenz auftauchen und Stereotype
       förmlich aneinanderkleben. So haben Forscher der Entwicklerorganisation
       Open AI in einer Studie herausgefunden, dass GPT-3 weibliche Pronomina mit
       tendenziell sexistischen Adjektiven wie „naughty“ (unanständig, verrucht)
       und „gorgeous“ (wunderschön) verknüpft, während Männern eher
       geschlechtsneutrale Eigenschaften wie „sympathisch“ oder „groß“
       zugeschrieben werden. Vor diesem Hintergrund verwundert es nicht, dass das
       Sprachmodell auch bei den Weltreligionen stereotype Muster zeigt: So
       brachte GPT-3 den Islam mit Worten wie „gewaltsam“ und „Terrorismus“ in
       Verbindung. Ist die künstliche Intelligenz islamophob?
       
       Ein solches Urteil griffe gewiss zu kurz. Computer können schon allein
       deshalb keine Islamhasser sein, weil es ihnen an einem Bewusstsein fehlt.
       Aber sie reproduzieren eben auch Vorurteile ihrer Entwickler. Und das sind
       überwiegend weiße Männer aus der amerikanischen Mittel- und Oberschicht.
       Insofern ist KI auch ein Spiegel der Gesellschaft.
       
       ## „Orientalistische Machtstrukturen“
       
       Die Bloggerin Francesca Scapolo kritisierte [6][in einem Essay für die
       Plattform „Medium“, „westliche Algorithmen“ würden „orientalistische
       Machtstrukturen perpetuieren“.]
       
       Die romantisierte Darstellung des Vorderen und Mittleren Orients, die als
       Legitimationsfolie für die kolonialen und imperialistischen Bestrebungen
       diente, und die daraus resultierenden Terrorismus-Diskurse würden durch
       Sprachmodelle wie GPT-3 zementiert. Wo sich die Sprach-KI einerseits am
       Kanon westlicher Kultur bedient, ist sie andererseits auf die Handarbeit
       von Menschen angewiesen, deren Kultur sie weitgehend ausblendet. So wurde
       bekannt, dass Open AI Clickworker in Kenia anheuerte, die für 2 Dollar die
       Stunde sexistische und gewaltverherrlichende Texte labeln. Dieses
       Outsourcing zeigt einmal mehr, wie die Plattformökonomie Menschen im
       Globalen Süden für ihre datenhungrigen Maschinen ausbeutet.
       
       Die kulturalistische Sichtweise setzt sich auch an anderer Stelle fort –
       zum Beispiel bei dem Bildgenerator DALL-E. Das Tool, das ebenfalls von Open
       AI stammt, verwandelt im Handumdrehen Texte in Bilder. Das Ölgemälde über
       Amerikas Krieg gegen den Terror zum Beispiel, welches die Bild-KI entwarf,
       steht in der Tradition europäischer Maler und erinnert in seiner düsteren
       Bildersprache an Caspar David Friedrich.
       
       Kunstkritiker wenden ein, dass der Bildgenerator eurozentrisch und
       vergangenheitsorientiert sei und ästhetische Ideale anderer Weltregionen
       ausblende – wobei die Vergangenheitsfixierung auch in der Funktionsweise
       von KI-Systemen begründet liegt, deren Algorithmen aus „historischen“ Daten
       lernen. Dieser Modus Operandi wirft zum einen die Frage auf, welche
       ästhetischen Kriterien man künftig an Originalität anlegt, zum anderen, ob
       durch ein „Datawashing“ koloniale Betrachtungsweisen neu beglaubigt werden.
       Wie „weiß“ sind computergenerierte Werke?
       
       ## Dekolonialisierung von KI
       
       Zwar gibt es für DALL-E eigene Tools, mit denen sich beispielsweise
       japanische Drucke imitieren lassen. Aber das zugrundeliegende Weltbild
       bleibt – es lässt sich nicht mit einem Mausklick wegretuschieren. Der
       KI-Forscher Yilun Du brachte es auf den Punkt: „Man kann ein Modell nicht
       weniger westlich feintunen, wenn der Datensatz zum größten Teil westlich
       ist.“ Die Rufe nach einer Dekolonialisierung von KI werden daher lauter. In
       Afrika laufen Projekte im Bereich des Natural Language Processing (NLP), wo
       es nicht nur darum geht, Sprachmodelle auf eine breitere Datengrundlage zu
       stellen, sondern auch darum, afrikanische Erzählkunst zu berücksichtigen.
       
       Die westliche Kultur fängt jedoch gerade erst an, die vielstimmige
       afrikanische Literatur zu hören – die Vergabe des Literaturnobelpreises
       2021 an den tansanischen Schriftsteller Abdulrazak Gurnah liefert davon
       Zeugnis. Wie also lässt sich mehr Diversität herstellen?
       
       Ein erster Schritt wäre es, den literarischen Kanon zu erweitern. Der
       BookCorpus, eine Sammlung von Tausenden Büchern, mit denen alle
       einflussreichen Sprachmodelle trainiert werden (neben GPT unter anderen
       auch Googles BERT), enthält vor allem Werke, die in der westlichen Kultur
       rezipiert werden. Dabei machen es die Fortschritte automatisierter
       Sprachsoftware überhaupt erst möglich, auch solche Werke zu erschließen,
       deren Übersetzung bislang aus wirtschaftlichen Gründen nicht realisiert
       werden konnte – etwa aus dem Indonesischen, wo es viele hierzulande
       unbekannte Literaten gibt. Und genau darum geht es: Wer erzählt die
       Geschichten von morgen? Menschen aus aller Welt? Oder Maschinen aus den
       USA?
       
       26 Jan 2023
       
       ## LINKS
       
   DIR [1] /Kuenstliche-Intelligenz-via-ChatGPT/!5903102
   DIR [2] https://www.nature.com/articles/d41586-023-00056-7
   DIR [3] https://arxiv.org/pdf/2005.14165.pdf
   DIR [4] https://de.wikipedia.org/wiki/Wikipedia:WikiProjekt_Frauen/Frauen_in_der_Wikipedia
   DIR [5] https://katzlberger.ai/2021/04/12/mit-diesen-daten-wurde-gpt-3-trainiert/
   DIR [6] https://theintercept.com/2022/12/08/openai-chatgpt-ai-bias-ethics/
       
       ## AUTOREN
       
   DIR Adrian Lobe
       
       ## TAGS
       
   DIR Podcast „Vorgelesen“
   DIR Schwerpunkt Künstliche Intelligenz
   DIR Google
   DIR Schwerpunkt Künstliche Intelligenz
   DIR Kolumne Der rote Faden
   DIR New York Times
   DIR Berliner Hochschulen
   DIR Volker Wissing
   DIR Unternehmen
   DIR Bot
       
       ## ARTIKEL ZUM THEMA
       
   DIR Studie zu Datenarbeitern: Harte Arbeit, niedriger Lohn
       
       Ohne Datenarbeiter würde KI, wie wir sie kennen, nicht funktionieren. Die
       Kehrseiten dieser Arbeit zeigt ein neues Forschungsprojekt.
       
   DIR OpenAI und Microsoft verklagt: New York Times gegen ChatGPT
       
       ChatGPT verletze das Urheberrecht, sagt die NYTimes. Deswegen geht das
       Medienhaus jetzt rechtlich gegen OpenAI vor – anders als die deutschen
       Verlage.
       
   DIR Künstliche Intelligenz: Denken oder Denken lassen?
       
       Wenn künstliche Intelligenz sich um den Ämterquatsch kümmert, könnte man
       mal wieder Zeit haben, einen vernünftigen Gedanken zu fassen.
       
   DIR Nach offenem Brief an „New York Times“: Nicht ohne Haltung
       
       Es wird wieder leidenschaftlich über Journalismus und Aktivismus
       diskutiert. Aber wer legt fest, was objektiv und was ideologisch ist?
       
   DIR Künstliche Intelligenz an Berliner Unis: Textgenerator? Läuft!
       
       Wie gehen Berliner Hochschulen mit Arbeiten um, die möglicherweise von KI
       verfasst wurde? Verbieten geht nicht, heißt es an der Technischen Uni.
       
   DIR Künstliche Intelligenz in Deutschland: Wissing gegen mehr KI-Regulierung
       
       Programme wie das Sprachsystem ChatGPT entwickeln sich schnell weiter. Der
       Digitalminister sieht große Chancen – und will keine strengen Regeln für
       KIs.
       
   DIR Künstliche Intelligenz: Faktenfreiheit zum Mitnehmen, bitte
       
       Algorithmen und Moral haben auf den ersten Blick wenig gemeinsam. Doch der
       gehypte Chatbot GPT zeigt, wie gefährlich es ist, die Ethik zu vergessen.
       
   DIR Künstliche Intelligenz via ChatGPT: Alles verändert?
       
       Eine KI, die für uns Texte schreibt? Klingt toll. Und ist inzwischen
       Wirklichkeit. ChatGPT ist lustig, eloquent – und gefährlich.