taz.de/1/!6002363 - Gopher HTTP proxy

  URI:

# taz.de -- KI zum Klonen von Stimmen: Künstliche Stimmen, ganz natürlich

> Ein Tool zum Klonen von gesprochener Sprache sorgt für Diskussionen. Der
> Hersteller betont die Potenziale – und schreckt vor einer Freigabe
> zurück.

IMG Bild: Stimmen ohne Einwilligung zu klonen ist rechtswidrig

Der Anruf kam, als ihre 15-jährige Tochter gerade auf einer Skifreizeit
war. Auf dem Display stand eine unbekannte Nummer, doch als sie den Anruf
annahm, hörte Jennifer DeStefano die Stimme ihrer Tochter, die weinte und
um Hilfe flehte, so erzählte es DeStefano dem US-Fernsehsender WKYT. Dann
habe sich eine Männerstimme gemeldet, die ein Lösegeld forderte und drohte,
der Tochter etwas anzutun.

Allein: Es gab keine Entführung. Betrüger hatten mittels Software die
Stimme der Tochter geklont. „Es war eins zu eins ihre Stimme. Es war ihr
Tonfall. Es war genau so, wie sie geweint hätte“, sagte die Mutter. Der
Fall, der sich zum Glück schnell aufklären ließ, liegt bereits ein knappes
Jahr zurück, doch er bekommt neue Aktualität durch die jüngste
Veröffentlichung aus dem Hause des US-Unternehmens OpenAI. Die auf den
Bereich Künstliche Intelligenz spezialisierte Firma stellte Ende voriger
Woche ihr jüngstes Tool vor: Voice Engine, ein Programm, mit dem sich
Stimmen klonen lassen – und das deutlich schneller als mit bisherigen
Programmen.

Künstliche Intelligenz (KI) ist eine der Technologien mit den aktuell
größten Entwicklungssprüngen und OpenAI eines der führenden Unternehmen.
Gestartet mit einem Non-Profit-Ansatz und der Idee, KI-Systeme zu
entwickeln, die gut sind für die Menschheit, ist mittlerweile Microsoft
maßgeblicher Investor und die Produkte der Firma sind durchaus umstritten.
So auch Voice Engine. OpenAI zeigt anhand von Beispielen, dass das Programm
auf Basis einer 15-sekündigen Audioaufnahme und einer Texteingabe eine neue
Audiosequenz erzeugt, die den eingegebenen Text spricht und dabei vom Klang
her sehr nah an der Sprecherstimme aus dem 15-Sekunden-Sample ist. Bislang
waren als Basis für ein solches Klonen der Stimme in der Regel Stimmproben
von mindestens einer Minute Länge nötig.

OpenAI betont die positiven Möglichkeiten: So könnten etwa Menschen, die
infolge einer Krankheit nicht mehr sprechen können, wieder mit ihrer Stimme
zu Wort kommen. Zumindest, wenn es eine 15-sekündige Audioaufnahme von der
Person gibt, was in Zeiten von Sprachnachrichten bei vielen Menschen der
Fall sein dürfte. Ein anderer Bereich könnte die internationale
Kommunikation sein. So stellte OpenAI generierte Audio-Samples in mehreren
Sprachen von Englisch über Japanisch bis Swahili vor. Die Basis dafür ist
auch hier die 15-sekündige Referenzaufnahme und eine Texteingabe, die von
der KI zu Sprache verarbeitet wird. Texte lassen sich heute schon schnell
und in meist hoher Qualität mittels KI übersetzen, zum Beispiel mit
Anbietern wie Google Translate oder DeepL.

Dennoch hat OpenAI das Modell nicht allgemein für die Nutzung freigegeben,
sondern [1][lediglich die Ergebnisse vorgestellt]. „Wir sind uns darüber im
Klaren, dass die Erzeugung von Sprache, die den Stimmen der Menschen
ähnelt, ernsthafte Risiken birgt“, so das Unternehmen in einem
[2][Blogbeitrag]. Man teste die Technologie derzeit „in kleinerem Maßstab“
und werde dann über das weitere Vorgehen entscheiden. Die an den Tests
beteiligten Partner müssten einer Reihe von Bedingungen zustimmen. Unter
anderem dürften nur Stimmen verwendet werden, wenn die zugehörigen Personen
einwilligten. Darüber hinaus habe das Unternehmen ein digitales
Wasserzeichen entwickelt, was die Rückverfolgbarkeit von erstellten
Sequenzen ermögliche.

## Die Stimme von Nawalnys Mutter

„Ein naheliegender Gedanke bezüglich der Gefahren, Stimmen synthetisch zu
generieren, ist der Einsatz für Desinformation“, sagt Sami Nenno, der am
Alexander von Humboldt Institut für Internet und Gesellschaft dazu forscht,
der taz. Audio-Deepfakes heißen solche gefälschten Sequenzen. Ein Beispiel:
Eine [3][vermeintliche Audio-Aufnahme] von der Mutter des verstorbenen
russischen Oppositionellen Alexej Nawalny, in der sie schwere Vorwürfe
gegen dessen Ehefrau erheben soll. Nenno zufolge sind solche reinen
Audio-Deepfakes jedoch aktuell selten.

Sein Kollege Matthias Kettemann, Professor für Innovationsrecht, stellt
klar: Stimmen ohne Einwilligung zu klonen ist rechtswidrig. Doch dass ein
Verbot nicht unbedingt auch eine wirksame Strafverfolgung nach sich zieht,
zeigen jetzt schon Delikte von Identitätsdiebstahl bis Hassrede. Verbreitet
hat sich daher die Forderung nach einer Art Wasserzeichen, um KI-generierte
Inhalte eindeutig kenntlich zu machen, wie es auch bei Voice Engine der
Fall sein soll. Kettemann ist skeptisch: „Jede Kennzeichnung lässt sich
aufheben; und böswillige Akteure halten sich ohnedies nicht dran.“
Wichtiger sei daher Bildung, bereits in der Schule. Und Umsicht: „Es ist
klug, dass OpenAI beschlossen hat, die Stimmen-KI nicht flächendeckend
auszuspielen – gerade in einem Superwahljahr wäre das auch
demokratiepolitisch herausfordernd.“

6 Apr 2024

## LINKS

DIR [1] https://openai.com/blog/navigating-the-challenges-and-opportunities-of-synthetic-voices
DIR [2] https://help.openai.com/en/articles/9028393-how-to-access-the-voice-engine
DIR [3] https://correctiv.org/faktencheck/2024/03/07/russland-deepfake-alexej-nawalny-pro-putin-profile-verbreiten-angebliches-audio-seiner-mutter-ljudmila-nawalnaja/

## AUTOREN

DIR Svenja Bergt

## TAGS

DIR Fake News
DIR Deepfake
DIR wochentaz
DIR Schwerpunkt Künstliche Intelligenz
DIR Schwerpunkt Künstliche Intelligenz
DIR Datenschutz
DIR Schwerpunkt Emmanuel Macron
DIR Film
DIR Kolumne Flimmern und Rauschen
DIR Schwerpunkt Flucht
DIR Schwerpunkt Künstliche Intelligenz
DIR TikTok
DIR Slowakei
DIR Schwerpunkt Künstliche Intelligenz
DIR Zentrum für Politische Schönheit

## ARTIKEL ZUM THEMA

DIR Synchronsprecher gegen Stimmen-Kopie: Gericht stoppt KI-Stimmenklau

Manfred Lehmann hat gegen einen Youtuber gewonnen, der seine Stimme per KI
nachgeahmt hat. Das Urteil schützt erstmals auch „Kunststimmen“.

DIR Künstliche Intelligenz: Achtung bei Prophezeiungen

Über die Zukunft der Künstlichen Intelligenz wird aktuell viel spekuliert.
Sicher ist nur, dass niemand genau voraussagen kann, wohin die Reise geht.

DIR Künstliche Intelligenz: Wie viel Regulierung ist sinnvoll?

Die Welt ringt um ihren Umgang mit KI-Technologien. Auf einem Gipfel in
Paris, zeigte sich, wo es in Europa damit hingeht.

DIR Film mit KI-generiertem Putin: Best-of der bösen Taten

Der polnische Regisseur Patryk Vega hat einen Film mit einem teilweise
computeranimierten Putin in die Kinos gebracht. Leider muss man vor ihm
warnen.

DIR Medien diskutieren Nutzung von KI: Kein Futter für Maschinen

Von Hundeurlaub bis KI-Skandale: Warum Medien ihre Daten nicht an die KI
verfüttern und stattdessen neue Regeln aufstellen sollten.

DIR Künstliche Intelligenz in Asylverfahren: Menschen sind auch nicht menschlich

Scholz wünscht sich, dass künftig KI bei Asylverfahren hilft. Klingt
gruselig, könnte aber auch zu schnelleren und humaneren Entscheidungen
führen.

DIR Kritik an mangelnder Verbindlichkeit: Europarat nimmt KI-Konvention an

Der Europarat will die Menschenrechte vor einem Missbrauch durch KI
schützen. Die Organisation hofft auf eine weltweite Wirkung – doch es gibt
Kritik.

DIR Künstliche Intelligenz auf Plattformen: Tiktok will KI-Inhalte kennzeichnen

Mit einem Hinweis will die Plattform Klarheit schaffen. Auch andere
Plattformen sollen die Kennzeichnung übernehmen können.

DIR Pressefreiheit in der Slowakei: Die Wunde ist nicht verheilt

Sechs Jahre nach dem Mord am Journalisten Ján Kuciak bleibt die
Pressefreiheit in der Slowakei prekär. Premier Fico sieht Journalisten
als Hindernis.

DIR OpenAI-Mitgründer verlässt Unternehmen: Andrej Karpathy bestätigt Abgang

Der Forscher will sich zukünftig persönlichen Projekten widmen. Erst im
November hatte OpenAI mit der Entlassung von Sam Altman Aufsehen erregt.

DIR Deepfake des ZPS: Nur kein falscher Scholz

Das Zentrum für Politische Schönheit veröffentlicht zum zweiten Mal ein
Video, in dem Olaf Scholz eindrücklich vor der AfD warnt. Aber: Es ist
nicht echt.