Quelloffene KI: Warum die Techbranche darüber streitet, was das überhaupt ist

Seite 2: Der ganze Open-Source-Kuchen

Schwer zu verstehen ist es jedoch nicht, warum Unternehmen, die sich selbst als Open-Source-Champions positionieren, nur ungern Trainingsdaten zur Verfügung stellen. Der Zugang zu hochwertigen Trainingsdaten gilt als großer Engpass für die KI-Forschung und ist ein Wettbewerbsvorteil für größere Unternehmen, den sie unbedingt behalten wollen, sagt Warso. Gleichzeitig bietet Open Source eine Reihe von Vorteilen, die diese Unternehmen gerne für ihre KI-Systeme nutzen wollen. Denn oberflächlich betrachtet sei der Begriff "Open Source" für viele Menschen eben positiv besetzt. Es laufe da eine Art "Open Washing" ab, sagt Warso, ähnlich wie beim "Green Washing" durch Konzerne.

Es kann aber auch erhebliche Auswirkungen auf die Profite eines Unternehmens haben. Ökonomen der Harvard Business School haben kürzlich beschrieben, dass Firmen durch Open-Source-Software bislang fast 9 Billionen Dollar an Entwicklungskosten eingespart haben, weil sie ihre Produkte auf hochwertiger freier Software aufbauen konnten, anstatt sie von Grund auf selbst zu entwickeln. Für größere Konzerne kann das Open-Sourcing ihrer Software, damit sie von anderen Entwicklern wiederverwendet und geändert werden kann, dazu beitragen, ein leistungsfähiges Ökosystem um ihre Produkte herum aufzubauen, sagt Warso. Das klassische Beispiel sei Googles Open-Sourcing seines mobilen Betriebssystems Android, das Googles dominante Position im Herzen der Smartphone-Revolution zementiert hat. Mark Zuckerberg von Meta wiederum räumt dies ausdrücklich seinen Aktionären gegenüber ein: "Open-Source-Software wird oft zu einem Industriestandard. Und wenn andere Unternehmen ihre Produkte standardisiert mit unserem Stack bauen, wird es für uns wiederum einfacher, neue Innovationen in unsere Produkte zu integrieren."

Regulatorische Behandlung

Entscheidend sei auch, dass Open-Source-KI an einigen Stellen eine günstigere regulatorische Behandlung erfahre, sagt Warso und verweist auf den kürzlich verabschiedeten AI Act der EU, der bestimmte Open-Source-Projekte von einigen der strengeren Anforderungen freistellt. Eine Kombination aus einer gemeinsamen Nutzung vortrainierter Modelle durch die Community in Kombination mit einer Zugangsbeschränkung zu den Trainingsdaten sei für viele Unternehmen geschäftlich sinnvoll, meint die Expertin Warso. Aber es hat eben auch einen Beigeschmack: Da will jemand den ganzen Kuchen. Und wenn diese Strategie dazu beiträgt, die ohnehin schon dominante Position großer Technikkonzerne zu festigen, ist es schwer vorstellbar, wie das mit dem zugrunde liegenden Ethos von Open Source zusammenpasst.

"Wir sehen Offenheit als eines der Werkzeuge, um die Machtkonzentration zu bekämpfen", sagt Warso. "Wenn die Definition dazu beitragen soll, diese Machtkonzentration in Frage zu stellen, dann wird die Frage der Daten noch wichtiger". Ainekko-Chef Shaposhnik hält einen Kompromiss für möglich. Ein großer Teil der Daten, die zum Trainieren der größten Modelle verwendet werden, stammt bereits aus offenen Quellen wie Wikipedia oder Common Crawl, das Daten aus dem Internet sammelt und frei zugänglich macht. "Unternehmen könnten die offenen Ressourcen, die zum Trainieren ihrer Modelle verwendet werden, einfach mit anderen teilen." So sei eine vernünftige Annäherung möglich, die es Entwicklern ermögliche, die Modelle zu studieren und zu verstehen.

Doch es gibt ein Problem: Die mangelnde Klarheit darüber, ob das Training nicht Urheber- und Eigentumsrechte von Autoren oder Künstlern verletzt. Das könne zu rechtlichen Komplikationen führen, sagt Aviya Skowron, Leiterin der Abteilung Politik und Ethik bei der gemeinnützigen KI-Forschungsgruppe EleutherAI, die ebenfalls am OSI-Definitionsprozess beteiligt ist. Das lasse Entwickler davor zurückschrecken, offen mit den Daten umzugehen und sorgt für Intransparenz. Stefano Zacchiroli, Professor für Informatik am Polytechnischen Institut in Paris, der ebenfalls an der OSI-Definition mitwirkt, ist sich der Notwendigkeit eines pragmatischen Vorgehens bewusst. Er ist deshalb überzeugt, dass eine vollständige Beschreibung der Trainingsdaten eines Modells das absolute Minimum sei, um es als Open Source zu bezeichnen. "Strengere Definitionen von Open-Source-KI stoßen möglicherweise nicht auf breite Zustimmung."

nach oben

Alle Angebote

Newsletter heise-Bot Push Push-Nachrichten

${intro} ${title}

${intro} ${title}

Quelloffene KI: Warum die Techbranche darüber streitet, was das überhaupt ist

Seite 2: Der ganze Open-Source-Kuchen

Regulatorische Behandlung

Spiele

1 Jahr nur 1,90 € pro Woche

Das digitale Abo für IT und Technik.