"All Tomorrow’s Parties": KI-Synthese – Ende des Copyrights, wie wir es kannten

KI-Systeme zur Bild- und Klangsynthese sind stochastische, interpolationsfähige Bibliotheken. Sie erfordern eine radikale Neuorientierung des Urheberrechts.

In Pocket speichern vorlesen Druckansicht 38 Kommentare lesen

(Bild: Mr. Tempter / Shutterstock.com)

Lesezeit: 12 Min.
Von
  • René Walter
Inhaltsverzeichnis

(This article also exists in English.)

Im Zeitalter des Machine Learning stehen unsere Vorstellungen von geistigem Eigentum und Urheberrechten vor einem radikalen Umbruch. Erste Klagen gegen KI-Unternehmen, die generative KI-Systeme anbieten, werfen die Frage auf, was Kunst und Kreativität genau sind und warum (auch auf welche Weise) wir sie schützen sowie fördern sollten.

Gastbeitrag von René Walter

René Walter ist ein Blogger, Grafikdesigner, Typograf und Journalist aus Berlin. Unter anderem arbeitete er drei Jahre lang bei Napster als Art Director. Seit rund 20 Jahren schreibt er ins Internet. Mit seinem preisgekrönten Blog Nerdcore betrieb er eine der erfolgreichsten privaten Websites in Deutschland, und 2009 initiierte er das erste landesweit aufsehenerregende Meme "Und alle so Yeaahh!". Seit mehr als 10 Jahren beschäftigt er sich mit Meme-Theorie, algorithmischer Kunst, den Auswirkungen des Digitalen auf menschliche Psychologie und den neuesten Entwicklungen an der Schnittstelle zwischen Wissenschaft, Technologie und Kreativität. Heute betreibt er den Newsletter GOOD INTERNET, in dem er die Entwicklungen im Bereich der Künstlichen Intelligenz kritisch begleitet.

Mitte Januar 2023 leitete der Stockfoto-Anbieter Getty Images in Großbritannien erste juristische Schritte gegen Stability AI ein, Anfang Februar schließlich ebenfalls in den USA. Zuvor hatten drei Künstlerinnen eine Klage eingereicht, in der sie das Unternehmen bezichtigten, mit Stable Diffusion gegen ihre Urheberrechte zu verstoßen (Grundlage bietet etwa die Studie "Extracting Training Data from Diffusion Models", die MIT Technology Review hatte berichtet). Verlage fordern in ersten Reaktionen auf ChatGPT eine Erweiterung des Leistungsschutzrechts auf generative KI-Systeme.

Verwertungsgesellschaften wie GEMA oder VG Wort, die die Urheberrechte ihrer Mitglieder verwalten, stehen vor einer gewaltigen Aufgabe. Ihre Ausschüttungsmechanismen werden durch diese neuartigen Systeme zum potenziellen Spielball für Betrüger, die sie mit einer leicht zu bedienende Software täuschen und Ausschüttungen zu eigenen Gunsten in die Höhe treiben können: mit KI-generierten Inhalten, die bestehende Systeme zu sprengen vermögen – durch die automatisierte Mediensynthese plausibler, aber nicht realer Texte, Bilder und Audiodaten.

Alison Gopnik, Professorin für Psychologie und Philosophie in Berkeley, bezeichnet die neuen generativen KI-Modelle als bibliotheksartige kulturelle Technologien, die Zugang zu Wissen bereitstellen und dieses vervielfältigen. Der Vergleich ist naheliegend, wenn auch ungenau, und ich würde die von Algorithmen berechneten interpolierbaren Datenräume, die sogenannten Latent Spaces, davon ausgehend als "stochastische Bibliotheken" bezeichnen: eine Bücherei, in der man einem Roboter-Bibliothekar beschreibt, welches Buch man haben möchte und der dann ein ungefähr passendes heraussucht. Anders formuliert: "KI ist wie eine Schachtel Pralinen – man weiß nie, was man bekommt."

Stochastische Bibliotheken sind interpolationsfähige Datenbanken ihrer Trainingsdaten: KI-Systeme lernen durch Mustererkennung verschiedene Charakteristika des Inputs und speichern diese als sogenannte Weights, die man über Parameter ansteuern kann. Im Falle von Stable Diffusion sind das 870 Millionen Parameter, bei ChatGPT gleich 175 Milliarden davon. Erstellt man etwa ein KI-Modell für Bilder von Pablo Picasso, so speichert das Neural Network die in den Trainingsdaten erkannten Muster für Stilistiken in Pinselstrich, Farbgebung oder Proportionen.

Diese kann ich wiederum über den Text-Prompt ansteuern und wer nun in der Picasso-KI ein Bild im Stil des Meisters erstellen möchte, aktiviert die Parameter für "Vase", "Blumen", "Obst" und "Picasso" und das Modell erzeugt ein Stillleben anhand der Weights dieser Muster in seiner Datenbank. Das Gleiche geschieht in ChatGPT, wenn ich einen heise-Text im Stil eines Ramones-Songs remixe. Genau dieses molekulare, interpolationsfähige Remix-Prinzip generativer KI erzeugt eine gewaltige Sprengkraft für die bestehenden Systeme des Urheberrechts.

Durch die Natur der Prompt-Eingabe, die ihren Input in verschiedene Token zerlegt, also in Silben und Gruppen von Buchstaben, kommen bei jeder Bilderzeugung viele dieser Weights und Parameter zusammen. Auch deshalb sprechen die Anwälte der Künstler von "Collage-Werkzeugen des 21. Jahrhunderts". Diese Wortwahl allerdings verbaut den Blick auf den interpolativen Charakter der Modelle: Jedes Bild wird anhand vieler unterschiedlicher Parameter erzeugt, die zuvor im KI-Training aus millionenfachen Bildanalysen gewonnen wurden.

Jedes synthetische Bild, die KI-Musik oder der generative Text sind immer das Ergebnis einer multidimensionalen Interpolation des Latent Space, in der man aus den Parametern "Roboter", "Hund", "Wiese", "Picasso" und "Blumen" einen fünfdimensionalen Raum voller möglicher Bildsynthesen erzeugt, aus dem Synthetisierungen nach Zufallsprinzip (bei Diffusionsmodellen) oder nach einem Belohnungs-Algorithmus ausgewählt werden. So kann ich durch den Text-Prompt jedes in der Datenbank enthaltene Muster mit anderen Mustern zu neuartigen Remixen verbinden, und so malt unser KI-Picasso auf einmal Roboter und Raumschiffe, wie er es im echten Leben nie getan hat.

Diese Interpolationsfähigkeit zwischen Datenpunkten stellt nicht nur das Urheberrecht vor bislang unbekannte Probleme: Aktuell sorgen synthetisch generierte KI-Stimmen für Unmut bei Synchronsprecherinnen und -sprechern, die in ihren Verträgen jüngst Klauseln finden, die Nutzungsrechte an ihren Stimmdaten zum Training von synthetischen Stimmen fordern. Gewerkschaften raten dazu, solche Verträge nicht zu unterschreiben, aber es ist nur eine Frage der Zeit, bis Filmproduzenten jede erdenkliche Stimme in jeder denkbaren Tonalität erzeugen können, rein durch Interpolation zwischen den einzelnen gelernten Mustern im Datensatz. Der neue Bösewicht des Marvel-Universums soll klingen wie Ted Brolin, aber in der Sprachfärbung von Bruce Willis und der Rhythmik von Pee Wee Herman? KI macht's möglich.

Die Trainingsdaten der generativen künstlichen Intelligenzen, die oftmals urheberrechtlich geschützte Werke enthalten, werden so zu Parameterbanken für "neue", synthetische Outputs umfunktioniert. Der bekannte Science-Fiction-Autor Ted Chiang, dessen Kurzgeschichte "The Story of Your Life" die Vorlage zu Denis Villeneuves Film "Arrival" lieferte, verglich Large Language Models im Magazin New Yorker mit der verlustreichen Datenkompression von JPGs – eine Metapher, die angesichts der Auflösung von Kultur im atomisierten Grey Goo des Latent Space durchaus angemessen erscheint.

Die Zufälligkeit einer stochastischen Bibliothek und der interpolative Charakter von KI-Synthese widersprechen grundsätzlich den Prinzipien US-amerikanischer und europäischer Urheberrechte, die individuelle, identifizierbare Werke von natürlichen Personen und eine gewisse Schöpfungshöhe voraussetzen, um tätig zu werden. Wie solche Kopierrechte auf einen interpolierfähigen Latent Space reagieren sollen, in dem ich Muster bestehender Werke auf kreativ-molekularer Ebene miteinander frei verbinden kann, ist völlig unklar und es kommt, wie ein Jurist sagen würde, "auf den Einzelfall an".

Jedoch haben zwei Studien gezeigt, dass Diffusionsmodelle in der Lage sind, die die zu ihrem Training verwendeten Bilddaten exakt zu reproduzieren (arXiv-Preprints: "Investigating Data Replication in Diffusion Models" und "Extracting Training Data from Diffusion Models"), was einerseits Urheberrechtsverletzungen ermöglicht und andererseits zu Verletzungen der Privatsphäre führen kann.

Erschwerend hinzu kommt die kommerzielle Verwertung dieser KI-Systeme. Sie entstanden zwar in einem wissenschaftlichen Rahmen und können sich daher zumindest während ihrer Entwicklung auf Ausnahmen in Schutzrechten in Europa und den USA berufen. Diese Ausnahmen unterliegen jedoch bei kommerziellen Anwendungen höheren rechtlichen Anforderungen, und sowohl Stability AI als auch OpenAI und Microsoft haben ihre KI-Systeme bereits auf den Markt gebracht. Auch deshalb ermittelt die Federal Trade Commission nun gegen OpenAI aufgrund verletzter Sorgfaltspflichten während der Markteinführung von ChatGPT.

Verwertungsgesellschaften von Urheberinnen und Urhebern haben bislang keinerlei Ansätze, um diesen endlosen stochastischen Mash-ups generativer KI-Systeme auf Basis atomisierter Kultur zu begegnen. Selbst wenn Urheber und Rechteverwalter in einer Reform des Urheberrechts Wege zur Regulierung der stochastischen Natur dieser neuartigen Kultur-Synthesizer finden, werden Schwarzmärkte für Modelle existieren, die Nutzern die freie Erkundung der neuen synthetischen Welten ermöglichen. Bereits jetzt gibt es Hunderte von Checkpoints (CKPTs) für Stable Diffusion, also derivative KI-Modelle, die auf den Stil bestimmter Künstler oder gleich auf ganze Ästhetiken trainiert wurden.

So gibt es sogar ein Stable-Diffusion-Modell für den Film "Cats". Auch ist es heute bereits möglich, einen eigenen Bildgenerator auf Basis von Stable Diffusion zu bauen, in dem man mit verschiedenen Checkpoint-Files neue Bildwelten mischen kann wie Zutaten beim Kochen: "Einmal spezialisierten CKPT mit Cats, Star Trek und Ghibli bitte", und heraus kommt ein gigantischer Latent Space, der auf Anime-Katzen vom Planeten Vulkan spezialisiert ist und unendliche Bildwelten garantiert. Noch weiter in die Zukunft gedacht, erscheinen Brain-Computer-Interfaces am Horizont, die eine Echtzeitvisualisierung von Gedanken ermöglichen – digital ermöglichte Klarträume im Wachzustand. Der Gedanke daran, dass Disney Gedanken zumindest im visualisierten Output kontrolliert, liegt nicht fern: "I can't show that, Dave."

Diese Probleme, vor die generative KI-Systeme die Verwerter von Urheberrechten stellen, dürften sich schon bald verschärfen. Allein im Januar 2023 wurde ein Dutzend neuer Technologien für generative Musik vorgestellt, exemplarisch hier Googles MusicLM – KI-Systeme für endlose Musikteppiche "in the style of" sind in greifbare Nähe gerückt. Jüngst wurde ein Song auf der Videoplattform TikTok millionenfach gehört, in dem synthetische und selbstverständlich unautorisierte KI-Versionen der Rapper Drake und The Weeknd einen neuen Song zum Besten gaben und ein neues Album der Deepfake-Version von Oasis erzeugt einen authentischeren Oasis-Sound als die neueren Platten der Original-Band.

Die Sängerin Grimes gab vor wenigen Tagen ihre Stimme zur Nutzung in KI-Synthesen frei und verlangt im Gegenzug 50 Prozent Lizenzgebühren, falls die Songs erfolgreich sind, während CEO Tom Graham des Start-ups Metaphysics, das sich auf Deepfakes spezialisiert, ein Copyright auf die KI-Anmutung seines Aussehens beantragt hat. Ein Fingerzeig in eine Zukunft der Urheberrechte, in der Künstler an den Erzeugnissen beteiligt werden, für die sie Daten aus Persönlichkeits-Mustern beisteuern, also Daten wie Stimmfarbe, Pinselstrich, Wortwahl und so weiter.

KI-Modelle für Video und 3D werden in den kommenden Jahrzehnten das Erstellen von Latent Spaces ermöglichen, die einem in Echtzeit erkundbaren Film gleichkommen, in dem man durch Prompt-Engineering die ungefähre Kontrolle über das Werk erhält, von Hauptdarsteller bis Kostümierung (wie etwa der nordirische Künstler und Programmierer Glenn Marshall in einem Interview zu seinem Film "The Crow" berichtet).

Die Matrix mutiert von einem fixierten, einmaligen, identifizierbaren Werk zu einem stochastisch explorationsfähigen Raum, in dem man mit Neo durch ein Mash-up aus "Metropolis" und "Die unendliche Geschichte" auf dem Glücksdrachen Fuchur fliegen kann: neuartige Vergnügungsparks als DLC (Downloadable Content) für das Gaming-System Latent Space mit unendlichen Musikstreams, vorgetragen von virtuellen Musikern.

Bereits die ersten Kollisionen des Rechts mit den Prinzipien der Digitalität betrafen vor allem die Rechte der Privatsphäre und der Urheberschaft. KI-Synthesen aus stochastischen Bibliotheken sind nur der neueste, zugegeben: gigantische Fortschritt dieser Entwicklung. Die Auflösung menschlicher kultureller Arbeit in einem digital berechneten, vieldimensionalen Latent Space bedeutet eine weitere, beinahe unlösbare Aufgabe für die Rechtsgebung.

Folgt man den alten Prinzipien eindeutig identifizierbarer Werke von natürlichen Personen, wird der Kulturraum auf lange Sicht unregulierbar. Eine weitere Ausweitung des Urheberrechts allerdings – auf stilistische Merkmale wie im Markenrecht etwa – läuft Gefahr, die kreativen Ausdrucksmöglichkeiten des Menschen einzuschränken.

In der Gegenwart zeigt der von Shutterstock vorgestellte Monetarisierungsansatz einen gangbaren Weg in die Zukunft: Künstler und Fotografen werden für ihren Beitrag zu einem Trainingsdatensatz pro synthetisiertem Bild mit Kleinstbeträgen entlohnt. Ob diese Form der Monetarisierung die wegfallenden Einnahmen durch kreative Arbeit und Tantiemen ausgleichen kann, bleibt mehr als fraglich – schließlich wurde der Wert von Kreativarbeit bereits durch das Aufkommen globalisierter Design-Plattformen enorm unter Druck gesetzt. Ebenfalls denkbar sind regelmäßige Zahlungen äquivalent zu den bereits seit Jahrzehnten gebräuchlichen GEMA-Kopierabgaben auf CD-Brenner oder Kopiergeräte – oder mittlerweile auch Smartphones.

Ob nun Ausschüttungsverfahren anhand der anteiligen Beiträge zu Trainingsdaten oder neuartige, pragmatische Fusionen von Persönlichkeits- und Urheberrechten wie im Fall der Freigabe zur KI-Nutzung von Grimes’ Stimme: Gesetzgeber, Verwertungsgesellschaften und nicht zuletzt Künstler und Urheber stehen vor dem steinigen Weg, Kreativarbeit auch in Zukunft wettbewerbsfähig zu halten. Ihr Beitrag zum gesellschaftlichen Wohl ist auch in Zeiten stochastisch interpolierbarer Erschließung von Kultur unbestritten – in einer Welt, in der ein virtueller Kurt Cobain in meinem Wohnzimmer Nirvana-Songs im Stil von Vaporwave-Tracks aufführt – "for all tomorrow‘s parties".

(sih)