Neue Deals: Big AI Tech zahlt Millionen für Trainingsdaten

Zwei Cent für ein Shutterstock Bild, sieben Dollar für eine Nacktaufnahme – die großen KI-Anbieter zahlen Millionen für Trainingsdaten.

In Pocket speichern vorlesen Druckansicht 12 Kommentare lesen
A,Person's,Head,Covered,By,An,Ai-labeled,Dark,Cloud

(Bild: photoschmidt/ Shutterstock.com)

Lesezeit: 5 Min.

Rund um KI ist ein neues Rennen entstanden: das um gute und verfügbare Trainingsdaten. Haben die großen KI-Anbieter zunächst lange das Internet für diese Zwecke genutzt und alle frei verfügbaren Inhalte abgegriffen, ist die Rechtmäßigkeit die Vorgehensweise aber fragwürdig. KI-Crawler werden zum Teil von den Seiten ausgeschlossen. Content, der für das Training taugt, ist begrenzt – auch die Qualität muss stimmen. Nun zahlen Meta, Google, Microsoft, Amazon, OpenAI und Co Millionen dafür, geeignetes Material zu bekommen.

Die Nachrichtenagentur Reuters hat mit einigen Anbietern gesprochen. Demnach hat die CEO von Defined.ai, Daniela Braga, gesagt, die Unternehmen seien bereits, für ein Bild einen bis zwei US-Dollar zu bezahlen. Kurzvideos lägen bei zwei bis vier US-Dollar und ein langes Video koste 100 bis 300 US-Dollar. Ein Text hingegen liegt bei 0,001 US-Dollar. Für Nacktaufnahmen müssen die KI-Anbieter fünf bis sieben US-Dollar bezahlen – sie bedürfen eines besonderen Umgangs, sowohl beim Bereitstellen als auch im Training, wo sie als solche ausgezeichnet werden müssen. Oftmals sitzen sogenannte Clickworker an den Trainingsdaten und kontrollieren diese auf unangebrachtes Material, markieren solches und bringen quasi der KI dadurch bei, was unerwünscht ist.

Defined.ai soll für die Nutzung der Inhalte Provision bezahlen. Deshalb spricht Braga auch von "ethischen Quellen".

Anders verhält es sich mit einem Deal, von dem Reuters erfahren hat: Photobucket ist eine Plattform, auf der Menschen früher kostenlos ihre Bild hochgeladen haben und sie teilen konnten. Seit 2017 ist Photobucket kostenpflichtig und kann dazu genutzt werden, Fotos in Blogs und anderen Webseiten zu verlinken. CEO Ted Leonard bestätigt, dass er in Gesprächen mit KI-Unternehmen ist, die die Millionen Bilder für das Training lizenzierten könnten. Der mögliche Deal umfasst Kosten für Bilder zwischen fünf Cent und einem US-Dollar sowie Videos für ebenfalls einen US-Dollar. Entsprechend groß ist der Schatz, auf dem Photobucket plötzlich sitzt.

Auch die Stockfoto-Datenbank Shutterstock soll Deals mit Meta, Google, OpenAI und weiteren eingegangen sein – jeweils zwischen mindestens 25 und 50 Millionen US-Dollar. Konkurrent Freepik bestätigt ebenfalls Deals und Gespräche über weitere Abschlüsse.

OpenAI hat zusätzlich Verträge mit AP, dem Verlag Axel Springer und Thomson Reuters abgeschlossen, die ihnen den Zugang zu den Nachrichtentexten, Fotodatenbanken und Archiven ermöglichen. Axel Springer soll mehrere zehn Millionen bekommen, plus Hilfestellung bei der eigenen KI-Strategie.

Noch vor dem großen Durchbruch von ChatGPT und Co. haben die KI-Anbieter ihre Modelle einfach mit allen Daten trainiert, die sie finden konnten – im Zweifel, ohne dass die Betroffenen davon wussten. Rückgängig machen lässt sich das nur schwer, zumindest können die Daten nicht aus den Modellen extrahiert werden. Allerdings ist die Rechtmäßigkeit fraglich. Künstler, aber allen voran die New York Times klagt gegen OpenAI und das Vorgehen. Ihnen stößt auf, dass ChatGPT ganz Artikel, die hinter der Paywall standen, auf bestimmte Nachfragen, wiedergeben kann.

OpenAIs Video-KI Sora ist laut CTO Mira Murati mit allen frei zugänglichen Videos aus dem Internet trainiert worden. Genauer will sie es in einem Interview nicht wissen. Youtubes CEO Neal Mohan hat daraufhin bereits erklärt, sollte OpenAI Videos von Youtube genutzt haben, sei das ein Verstoß gegen die Richtlinien gewesen. Mohan hatte Bloomberg gesagt, er habe auch keine gesicherten Informationen, er unterstützt zudem die Ersteller der Videos, in dem er sagt: "Aus der Sicht eines Urhebers haben sie bestimmte Erwartungen, wenn sie ihre harte Arbeit auf unsere Plattform hochladen." Eine dieser Erwartungen sei, dass die Nutzungsbedingungen eingehalten werden. "Es ist nicht erlaubt, dass Dinge wie Abschriften oder Videoausschnitte heruntergeladen werden, und das ist ein klarer Verstoß gegen unsere Nutzungsbedingungen." Dabei soll OpenAI Videos mittels der eigenen Audio-KI Whisper transkribiert haben und diese Texte für das Training genutzt haben, berichtet die New York Times.

Murati hatte in dem Video auch erklärt, es sei möglich, dass Videos und Fotos von Instagram oder Facebook ins Training von Sora geflossen sind. Das heißt, auch die Aufnahmen von Privatpersonen, die öffentlich waren, sind von OpenAI genutzt worden. Auch Meta selbst hat freilich ebensolche KI-Modelle, von denen nicht bekannt ist, mit welchen Daten sie trainiert wurden. Grundsätzlich beruft sich beispielsweise OpenAI auf den Grundsatz "fair use", den es so nur in den USA gibt und der besagt, es sei erlaubt, auch urheberrechtlich geschütztes Material ohne Erlaubnis zu verwenden, da es allen zugutekommt – also ChatGPT allen zugutekommt.

(emw)