Dolly 2.0: großes KI-Sprachmodell frei verfügbar auch für kommerziellen Einsatz

Databricks hat ausgehend von EleutherAIs Forschungsserie Pythia ein feingetuntes großes Sprachmodell erstellt. Code, Datensatz und Gewichte sind Open Source.

In Pocket speichern vorlesen Druckansicht 3 Kommentare lesen
Dolly 2.0, Logo zum großen Sprachmodell von Databricks

(Bild: Dolly 2.0, Logo © Databricks)

Lesezeit: 8 Min.
Von
  • Silke Hahn
Inhaltsverzeichnis

Das Softwareunternehmen Databricks hat Dolly 2.0 als Open Source veröffentlicht. Dolly weckt nicht nur namentlich Assoziationen zu Klonschafen und dem ähnlich lautenden Bildgenerator von OpenAI (DALL·E), es handelt sich um den Klon eines quelloffenen KI-Modells (Pythia-12B von EleutherAI, mehr dazu weiter unten). Ähnlich wie ChatGPT ist das große Sprachmodell auf die Interaktion mit Menschen ausgelegt, die ihm Anweisungen in natürlicher Sprache geben. Das Besondere an dem Release ist laut Anbieter, dass Dolly 2.0 frei verfügbar ist – und zwar ausdrücklich auch für kommerzielle Zwecke und Anwendungen. Anders als bei OpenAI fallen keine Gebühren für einen API-Zugang an und die Nutzerdaten würden nicht mit Dritten geteilt, heißt es im Blogeintrag zum Release.

Das 12 Milliarden Parameter große Modell ist für Forschung und kommerziellen Einsatz lizenzierbar. Jegliche Organisation könne damit ihre eigenen Large Language Models (LLM) erstellen und für eigene Zwecke anpassen. Dolly 2.0 ist ein quelloffenes großes KI-Sprachmodell, das Textanweisungen befolgt (instruction-following) und auf einem von Databricks-Mitarbeitern selbst erstellten Datensatz ein Feintuning durchlaufen hat. Das Unternehmen veröffentlicht den Code, die Gewichte und den für das Feintuning verwendeten Datensatz "databricks-dolly-15k", der unter der Lizenz Creative Commons Attribution ShareAlike 3.0 steht: Somit darf jedermann den Datensatz nutzen, verändern und erweitern "für jeglichen Einsatzzweck, einschließlich kommerzieller Anwendungen".

Das Besondere daran ist neben der freien Verfügbarkeit unter Open-Source-Lizenz, dass der Datensatz nicht sekundär aus anderen KI-Modellen abgeleitet wurde: Über 5.000 Databricks-Mitarbeiter hätten zwischen März und April 2023 an dem menschengemachten Trainingsdatensatz mitgewirkt, heißt es im Blogeintrag. Laut Unternehmen handele es sich um den ersten von Menschen erstellten Anweisungs-Datensatz für das Training großer Sprachmodelle.

Das Databricks-Modell ist anders als die zurzeit verbreiteten LLaMA-Ableger ein Sprössling der Pythia-Modellfamilie von EleutherAI. Die gemeinnützige KI-Forschungsgruppe EleutherAI (zu Deutsch: "Freie KI") war 2020 entstanden, nachdem OpenAI sich im Zuge einer Partnerschaft mit Microsoft in ein gewinnorientiertes Unternehmen verwandelt und von den ursprünglichen Open-Source-Zielen abgewandt hatte. Mit Pythia hat EleutherAI Anfang April 2023 ein Paket kleinerer Sprachmodelle für das wissenschaftliche Erforschen großer Modelle herausgebracht, die auf öffentlich zugänglichen Datensätzen vortrainiert sind.

EleutherAIs Modellfamilie bietet 16 Modelle in Größen zwischen 70 Millionen und 12 Milliarden Parametern sowie Zugang zu 154 Checkpoints für jedes dieser Modelle. Obendrein legt der Forschungsverbund Werkzeuge bereit, mit denen Forscherinnen und Forscher die Trainingsdaten rekonstruieren können für weitere Untersuchungen. Neben dem Forschungsangebot dieses "hochkontrollierten Setups" stehen die Pythia-Modelle auf GitHub frei zum Download bereit.

Für Dolly 1.0 hatte Databricks noch einen Datensatz des Stanford-Projekts Alpaca verwendet, den das Alpaca-Team über die OpenAI-API mittels ChatGPT erstellt hatte. Die Nutzungsbedingungen von OpenAI untersagen das Verwenden der API, um aus den so gewonnenen Daten OpenAI wirtschaftlich Konkurrenz zu machen.

Anregungen für das Training von Dolly 2.0 bezog das Databricks-Team aus einem OpenAI-Paper von März 2022 "Training language models to follow instructions with human feedback". Darin steht etwa, dass OpenAI einen Datensatz aus 13.000 Anweisungsbeispielen verwendet hat, um dem Modell menschliches Verhalten zu vermitteln. Die Herausforderung dabei ist, dass jedes der 13.000 Frage-Antwortpaare ein Original sein muss und nicht aus ChatGPT oder dem Internet kopiert werden darf, da das sonst "den Datensatz verunreinige". Unter den über 5000 Mitarbeitern von Databricks fand ein Crowdsourcing in sieben Bereichen statt, in denen dem Modell Fähigkeiten verliehen werden sollten:

  • Offene und geschlossene Q&A – wobei es bei offenen Fragen nicht unbedingt die eine richtige Antwort gibt. Bei geschlossenen Fragen ist die Antwort auf einen vorgegebenen Wissenscorpus oder Textausschnitt beschränkt.
  • Informationen aus Wikipedia beziehen und Faktenfragen beantworten
  • Informationen aus Wikipedia zusammenfassen
  • Brainstorming: offene Ideensammlung und Assoziationen
  • Klassifzieren von Text
  • Kreatives Schreiben

Dolly 2.0 fasst ein Kundenanliegen zusammen

(Bild: Databricks)

Mithilfe einer "Gamification"-Challenge kamen 15.000 Frage-Antwort-Paare zusammen, die den Trainingsdatensatz databricks-dolly-15k ausmachen. Databricks bewirbt den Datensatz als faktenbasiert und von hoher Qualität, da alle daran Beteiligten Fachleute sind und sich aktiv mit LLM auseinandersetzen. Laut Databricks sei das Modell weniger anfällig für Halluzinationen als die auf LLaMA aufbauenden sekundären Modelle, die mit synthetisch erzeugten Trainingsdatensätzen gefüttert worden waren. Im Blogeintrag lassen sich Anweisungen und Beispiel-Antworten durchsehen.

Das Modell gilt von seinen Leistungen und der verhältnismäßig geringen Größe her nicht als "SOTA" (state-of-the-art). Seine Herausgeber erwarten allerdings, dass es als Ausgangspunkt für weitere darauf aufbauende Arbeiten dient und dass daraus mächtigere große Sprachmodelle entstehen könnten. In der KI-Szene wird das Modell teils mit Begeisterung aufgenommen – der Ansatz, es als Open Source zugänglich zu machen, stößt auf Akzeptanz und könnte auch in Zusammenhang mit einer laufenden Petition von LAION für ein internationales KI-Rechencluster zum Erstellen offener Modelle von Interesse sein.

Dolly 2.0 erstellt einen Tweet-Text zum eigenen Release

(Bild: Databricks)

Seit dem Leak von Metas nur für wissenschaftliche Zwecke auf Anfrage lizenzierbaren Modell LLaMA schießen davon illegal abgeleitete Modelle aus dem Boden. Universitäten wie Stanford und Berkeley (die offiziell mit LLaMA arbeiten durften) zeigen mit kleinem Budget und Crowdsourcing, dass sich große Modelle mit kleinen Mitteln nachtrainieren lassen. Meistens bleibt es beim "Proof of Concept": Stanford nahm die Alpaca-Demo nach kurzer Zeit wieder offline, da die Kosten für den Betrieb nicht tragbar waren. Ungeklärt ist dabei stets die Frage nach legalem Einsatz, da Metas Modell ebenso wenig als Open Source freigegeben sind wie die von OpenAI-Microsoft. Die Nutzung erfolgt daher in einer rechtlichen Grauzone, für kommerzielle Zwecke sind solche Modelle unbrauchbar. Die Praxistauglichkeit ist ebenfalls uneinheitlich, Benchmarks liegen meistens nicht vor oder sind wenig überzeugend.

Eine Ausnahme bildet der LLaMA-Ableger Vicuna, der aufgrund seiner geringen Größe für lokalen Einsatz geeignet ist und dessen Herausgeber behaupten, dass Vicuna "90 Prozent der Performance von ChatGPT" erreiche (wissenschaftliche Daten liegen nicht vor). Es wird zwar als Open Source bezeichnet – da von LLaMA ausgehende Modelle und aus GPT-4 bezogenen Trainingsdatensätzen die Grundlage sind, ist es rechtlich in der Grauzone wie die anderen LLaMA-Ableger. Vicuna ist ein universitätsübergreifendes Projekt von Studierenden von den Universitäten Berkeley, CMU (Carnegie Mellon Pittsburgh), Stanford und San Diego. Vermutlich hatten das Projekt eine wissenschaftliche Lizenz und war nicht auf den inoffiziellen Bit-Torrent mit den geleakten Modelldaten angewiesen.

Zuletzt waren in rascher Folge zahlreiche Ableger von LLaMA erschienen. Die Anbieter hatten ihre Trainingsdatensätze zum Finetuning durchwegs sekundär über die OpenAI-API mittels GPT-4 und ChatGPT erstellt, also synthetische Daten verwendet und kein eigenes Modelltraining durchgeführt, ohne eigene Datensätze anzulegen. Rechtlich und auch inhaltlich stehen solcherart getunte Modelle auf wackligen Füßen, da OpenAI seine Produkte nicht der Allgemeinheit zur Verfügung stellt und daraus hergeleitete Trainingsdatensätze zum Erstellen neuer Modelle seitens OpenAI in den Terms of Service untersagt sind, sofern jemand versuchen sollte, daraus Kapital zu schlagen. Alpaca, Koala, Vicuna und GPT4All sind daher allesamt nicht für kommerziellen Einsatz geeignet.

Allerdings gilt auch die Verwendung privater Daten von Nutzern durch OpenAI zum Erstellen und Feinjustieren der eigenen kommerziellen GPT-Serie als problematisch und ist zurzeit Gegenstand rechtlicher Untersuchungen in Kanada, den USA und Italien.

Databricks ist Anbieter einer Multi-Cloud-Plattform für Data Engineering, Data Science und Datenanalysen. Das Unternehmen wurde 2016 von den Entwicklern von Apache Spark gegründet, die rund um Spark eine Plattform für automatisierte Clusterverwaltung und Notebooks im IPython-Stil aufbauten – als Anbieter von KI-Modellen war Databricks bislang nicht in Erscheinung getreten. Die erste Version des großen Sprachmodells (Dolly) war erst vor rund zwei Wochen erschienen.

Weitere Informationen, Beispiele und Hinweise zum Download stehen im Blogeintrag auf der Databricks-Website.

(sih)