Large Language Models: Kein Training mit Inhalten der New York Times

Die New York Times verbietet das Verwenden ihrer Inhalte zu KI-Trainingszwecken in ihren Nutzungsbedingungen.

In Pocket speichern vorlesen Druckansicht 43 Kommentare lesen
News,Typewriter,Old,School,Journalism

(Bild: Laurel Bratcher/ Shutterstock.com)

Lesezeit: 2 Min.

Die New York Times will verhindern, dass ihre Inhalte zum Trainieren von KI-Modellen verwendet werden, wie Adweek berichtet. Demnach hat das US-Magazin seine Nutzungsbedingungen am 3. August aktualisiert. Dadurch ist die Verwendung ihrer Inhalte für das Training von Large Language Models (LLM) nicht mehr möglich. Zu den Inhalten gehören Texte, Fotos, Bilder, Audio- und Videoclips, Metadaten und mehr.

Den Nutzungsbedingungen zufolge ist auch das Webcrawling und eine spätere Veröffentlichung beziehungsweise Bereitstellung der Datensätze untersagt, es sei denn, es gibt eine schriftliche Genehmigung. Die Missachtung der Regeln könnten laut New York Times zu Strafen führen, die nicht näher erläutert sind.

Trotz der Einführung der neuen Regeln scheint die New York Times The Verge zufolge keine Änderungen an ihrer robots.txt vorgenommen zu haben – der Datei, die Suchmaschinen-Crawler darüber informiert, auf welche URLs zugegriffen werden kann. OpenAI hatte erst kürzlich eine Möglichkeit vorgestellt, die den Zugriff von GPTBot auf Websites verhindern soll. Auch The Verge blockt GPTBot.

Wer nicht will, dass ChatGPT Daten von seiner Website crawlt, kann die robots.txt-Datei seiner Website zwei Zeilen hinzufügen. Auch andere Webcrawler lassen sich so blockieren, beispielsweise der von der Non-Profit-Organisation Common Crawl betriebene Webcrawler CCBot. Er verfügt über einen Datensatz von rund 3,15 Milliarden Webseiten und hat laut The Decoder Verträge mit OpenAI, Meta und Google für das KI-Training ausgehandelt. Unklar ist jedoch, ob die Änderungen an den robots.txt-Dateien das Teilen von Inhalten vollständig verhindert.

(mack)