Macherqualitäten: ChatGPT & Co. steuern autonome Agenten

Forscher haben Sprachmodellen beigebracht, selbständig Aufgaben zu bearbeiten. Die Modelle steuern sich ein Stück weit selbst und interagieren mit ihrer Umwelt.

5

(Bild: Erstellt mit Midjourney durch heise online)

07.05.2023, 06:10 Uhr

Lesezeit: 7 Min.

c't Magazin

Von

Jo Bager

Die Texte für die Folien einer längeren Präsentation generieren: Mit Sprachmodellen (Large Language Models, LLMs) lassen sich auch solche aufwendigeren Projekte verwirklichen. Allerdings muss der Nutzer dem Sprachmodell für jeden Schritt per Prompt immer wieder Anweisungen geben, etwa um ihm nach und nach den Aufbau der Präsentation sowie die Inhalte für die einzelnen Folien zu entlocken. Eine Reihe neuer Projekte soll Sprachmodelle dazu bringen, solche komplexen Aufgaben selbstständig zu lösen.

Ausprobieren kann man das zum Beispiel auf der Homepage von AgentGPT, das auf GPT-3.5 aufsetzt. Gibt man einem Agenten dort einen Auftrag, etwa "Erstelle mir eine 30-seitige Präsentation über LLMs im Journalismus: Wie können Journalisten sie nutzen und was sind die Gefahren?", startet dieser sofort durch und zerlegt die Aufgabe zunächst in Teilaufgaben, wobei er ins Englische wechselt:

Adding Task: Gather research and information about LLMs and their use in journalism.
Adding Task: Create an outline for the presentation, including sections on how journalists can use LLMs and the potential threats.
Adding Task: Write and format the 30-page presentation, incorporating the gathered information and outlined sections.

Diese Teiljobs arbeitet AgentGPT dann nach und nach ab, bis er am Ende einen Teil der Präsentationsinhalte im Browser anzeigt. Er fertigt sie nur deshalb nicht vollständig an, weil das offenbar zu teuer ist: "We’re sorry, because this is a demo, we cannot have our agents running for too long." Wer mag, kann seinen OpenAI-API-Schlüssel hinterlegen und AgentGPT auf eigene Kosten arbeiten lassen.

Godmode.space klärt jeden seiner geplanten Schritte mit dem Benutzer ab. Der kann dem Bot auch andere Teilaufgaben geben., — Godmode.space klärt jeden seiner geplanten Schritte mit dem Benutzer ab. Der kann dem Bot auch andere Teilaufgaben geben.

Gedächtnis und Schnittstellen

Eine ähnliche im Browser nutzbare Anwendung findet sich bei Godmode.space. Der Agent dort legt allerdings nicht sofort los, sondern setzt auf Kooperation mit dem Anwender. Auf die Anforderung "Create a 30 page presentation about LLMs in journalism: how can journalists use them and what are the threats?" hin lässt er den Besucher an seinen "Ideen" teilhaben. Bevor der Bot einen Teilschritt ausführt, muss der Anwender ihn bestätigen. Alternativ kann er eigene Ideen einbringen und den Bot damit in eine andere Richtung lenken.

Wegen ihrer Browseroberfläche sind AgentGPT und Godmode.space zwei besonders anschauliche Vertreter einer ganzen Reihe von Projekten, die in den letzten Wochen entstanden sind. Viele davon dürften durch BabyAGI von Yohei Nakajima inspiriert worden sein, einem JavaScript-Skript von nicht einmal 9 KByte Länge. Mehr als 20 solcher Systeme listet die GitHub-Homepage von BabyAGI auf.

Alle diese Projekte haben einen ähnlichen Aufbau und eine vergleichbare Funktionsweise. Sie benutzen das API von OpenAI, um Aufgaben zu lösen beziehungsweise komplexe Aufträge in kleinere Schritte aufzuteilen. Eine Datenbank speichert Teilaufgaben und Zwischenergebnisse.

Lesen Sie auch

AutoGPT: KI-Agenten beginnen, auf GPT-4-Basis autonom in der Welt zu handeln

Im Wesentlichen durchläuft ein Skript eine Schleife: Es holt die erste noch nicht abgeschlossene Aufgabe einer solchen Liste aus der Datenbank, arbeitet sie ab und speichert das Ergebnis in der Datenbank. Anschließend lässt es neue Aufgaben erzeugen und priorisiert die Aufgabenliste neu, abhängig vom Gesamtziel und dem Ergebnis der zuvor erledigten Aufgabe.

Bei allen Schritten verwenden diese Agenten eine Technik namens Self Prompting: Sie füttern die OpenAI-API mit einem Prompt, um sich von GPT neue Prompts generieren zu lassen, die den weiteren Ablauf steuern. Neue Aufgaben erzeugt BabyAGI zum Beispiel folgendermaßen:

const prompt = `You are an AI who 
  performs one task based on the 
  following objective: ${objective}\n. 
  Take into account these previously 
  completed tasks: ${context}\n. 
  Your task: ${task}\nResponse:`

Die Variable objective enthält dabei die Gesamtaufgabe, die Variable context die bereits gelösten Teilaufgaben und die Variable task die aktuelle Teilaufgabe.

BabyAGI und AgentGPT kommunizieren für ihre Problemlösungen nur mit OpenAI, Godmode.space ist da bereits einen Schritt weiter. Es fragt auch Suchmaschinen ab und wertet die zurückgelieferten Ergebnisse aus.

Auf der Demo-Seite zum Aufsatz "Generative Agents: Interactive Simulacra of Human Behavior" kann man virtuelle Agenten durch ihren Tag begleiten., — Auf der Demo-Seite zum Aufsatz "Generative Agents: Interactive Simulacra of Human Behavior" kann man virtuelle Agenten durch ihren Tag begleiten.

Kleine autonome Welt

Die 25 Software-Agenten, die in der virtuellen Welt Smallville "leben und arbeiten", können noch viel mehr. Die Agenten "wachen auf, machen Frühstück und gehen zur Arbeit; Künstler malen, während Schriftsteller schreiben; sie bilden sich Meinungen, nehmen sich gegenseitig wahr und beginnen Gespräche; sie erinnern sich an vergangene Tage und denken über sie nach, während sie den nächsten Tag planen" – so ihre Urheber, Forscher von der Stanford-Universität und Google.

Die 2D-Welt Smallville und ihre Einwohner gehören zum wissenschaftlichen Paper "Generative Agents: Interactive Simulacra of Human Behavior". Die Praxissimulation soll aufzeigen, wie glaubwürdig sich menschliches Verhalten in interaktiven Anwendungen abbilden lässt.

Wie bei BabyAGI & Co benutzt ihr System ein Sprachmodell, GPT-3.5, das die Handlungen und Gespräche der Agenten als Text ausgibt. Der wiederum dient anderen Agenten als Input, genau wie die Beschreibung der einzelnen Orte in Smallville. Das Sprachmodell spielt also parallel die Handlungen von 25 Agenten wie in einem Rollenspiel durch.

Die Forscher haben eine interaktive Demo bereitgestellt, in der man die Agenten 48 Stunden lang begleiten kann. Jeder Agent lässt sich anklicken. So können Beobachter jederzeit in Textform nachvollziehen, was er gerade tut, wo er sich aufhält und mit wem er sich worüber unterhält.

Der im Februar veröffentlichte Aufsatz und Smallville haben ein riesiges Medienecho erfahren – und letztlich den Boom der Agentensysteme ausgelöst. Das hat sicherlich auch damit zu tun, dass die Wissenschaftler nicht nur auf der Sprachebene geblieben sind, sondern eine grafische Welt geschaffen haben, in der ihre Agenten agieren.

Sprachmodell als Robotersteuerung?

Wenn sich Sprachmodelle als Agenten in virtuelle Umgebungen integrieren lassen, liegt es nahe, sie auch in der physischen Welt einzusetzen. Dabei könnten die Agenten ihren Input aus Sensoren beziehen, deren Ausgaben für sie übersetzt werden, und zum Beispiel Roboter steuern. Es gibt bereits eine Studie der KI-Forschungsabteilung von Microsoft, die sich damit beschäftigt hat. In einem Fall geht es darin unter anderem darum, mit einem autonomen Roboter einen Kühlschrank mittels Robotorarm zu öffnen und eine Flasche herauszunehmen.

Bei jedem Bewohner von Smallville lässt sich jederzeit ersehen, was er tut und worüber er sich unterhält., — Bei jedem Bewohner von Smallville lässt sich jederzeit ersehen, was er tut und worüber er sich unterhält.

Bis Sprachmodelle so weit sind, Roboter zu steuern, dürfte allerdings noch einige Zeit vergehen. Abgesehen davon, dass sie tendenziell eher kreative Texte als exakte Anweisungen verfassen, fehlt ihnen auch das Wissen über die korrekte Steuerung von Roboterkomponenten. Weil die "Künstliche Intelligenz" (KI) unvollständige Aktionssequenzen ablieferte, mussten die Microsoft-Forscher eine zusätzliche Korrekturstufe einführen: einen Menschen, der die KI-generierten Befehle prüft.

Auch die Erschaffer von Smallville wissen nicht, ob die Agenten nicht Chaos anrichten könnten, wenn man die Simulation länger laufen lässt. Bisher haben sie ihre Simulation nur über zwei Tage laufen lassen. Das Sprachmodell könne aber durchaus halluzinieren oder sprachlich aus dem Ruder laufen, warnen die Wissenschaftler in ihrem Paper.

Alle 14 Tage präsentiert Ihnen Deutschlands größte IT-Redaktion aktuelle Tipps, kritische Berichte, aufwendige Tests und tiefgehende Reportagen zu IT-Sicherheit & Datenschutz, Hardware, Software- und App-Entwicklungen, Smart Home und vielem mehr. Unabhängiger Journalismus ist bei c't das A und O.

Siehe auch: