Künstliche Intelligenz: Modell hilft Robotern, wie Menschen zu lernen​

Das vom OpenAI-Spinoff Covariant entwickelte RFM-1 verarbeitet Text, Bilder, Video, Roboteranweisungen und Messungen. Eine Demonstration wirft noch Fragen auf.​

In Pocket speichern vorlesen Druckansicht 2 Kommentare lesen

(Bild: Screenshot / Covariant)

Lesezeit: 6 Min.
Von
  • James O'Donnell
Inhaltsverzeichnis

Im Sommer 2021 schloss OpenAI still und leise sein Robotik-Team und begründete es damit, dass der Fortschritt durch einen Mangel an geeigneten Daten behindert wurde. Daten, die notwendig seien, um Roboter darin zu schulen, wie sie sich bewegen und mit Künstlicher Intelligenz (KI) denken können. Mitte März haben nun drei der frühen OpenAI-Forscher bekannt gegeben, dass ihr 2017 ausgegründetes Start-up Covariant dieses Problem gelöst und ein System vorgestellt hat, das die Denkfähigkeiten großer Sprachmodelle mit der physischen Geschicklichkeit eines fortschrittlichen Roboters kombiniert.

Das neue Modell namens RFM-1 wurde mit jahrelang gesammelten Daten aus der kleinen Flotte von Covariant-Robotern trainiert, die Kunden wie Crate & Barrel und Bonprix in Lagern auf der ganzen Welt einsetzen, und dazu auch mit Texten und Videos aus dem Internet. In den kommenden Monaten wird das Modell für die Kunden von Covariant freigegeben. Das Unternehmen hofft, dass das System im Laufe der Zeit immer leistungsfähiger und effizienter wird, wenn es in der Praxis eingesetzt wird.

Was kann es also leisten? Bei einer Vorführung Anfang März zeigten die Covariant-Mitbegründer Peter Chen und Pieter Abbeel, wie Benutzer das Modell mit fünf verschiedenen Eingabearten (Prompts) anregen können: Text, Bilder, Video, Roboteranweisungen und Messungen. Sie zeigten dem Roboter beispielsweise das Bild eines mit Sportgeräten gefüllten Behälters und sagten ihm, er solle das Paket mit den Tennisbällen aufheben. Der Roboter kann dann den Gegenstand greifen, ein Bild davon erstellen, wie der Behälter aussehen wird, wenn die Tennisbälle weg sind, oder ein Video erstellen, das zeigt, wie der Roboter bei der Ausführung der Aufgabe aussehen wird, und zwar aus der Vogelperspektive.

Wenn das Modell vorhersagt, dass er den Gegenstand nicht richtig greifen kann, könnte er sich sogar zurückmelden: "Ich kann den Gegenstand nicht richtig greifen. Hast du irgendwelche Tipps?" Eine Antwort könnte ihm raten, eine bestimmte Anzahl von Saugnäpfen an seinen Armen zu verwenden, um besser greifen zu können, zum Beispiel acht statt sechs.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmmung wird hier eine Vimeo-Video (Vimeo LLC) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Vimeo LLC) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Chen sagte, dies sei ein großer Fortschritt für Roboter, die sich anhand von Trainingsdaten an ihre Umgebung anpassen können, anstatt des komplexen, aufgabenspezifischen Codes, der die vorherige Generation von Industrierobotern antrieb. Es ist auch ein Schritt hin zu Arbeitsplätzen, an denen Manager Anweisungen in menschlicher Sprache erteilen können, ohne sich um die Einschränkungen menschlicher Arbeit zu kümmern: "Packen Sie 600 Mahlzeitensets für rote Paprikapasta nach folgendem Rezept. Machen Sie keine Pausen!"

Lerrel Pinto zufolge, der das Labor für allgemeine Robotik und künstliche Intelligenz an der New York University leitet und keine Verbindung zu Covariant hat, haben Roboterforscher zwar schon früher einfache multimodale Roboter gebaut und in Labors eingesetzt, doch der Einsatz eines Roboters in großem Maßstab, der in so vielen Modi kommunizieren kann, stelle eine beeindruckende Leistung für das Unternehmen dar.

Um seine Konkurrenten auszustechen, muss Covariant genügend Daten sammeln, damit der Roboter auch in der freien Wildbahn eingesetzt werden kann, sagt Pinto. Er wird in Lagerhallen und Verladedocks auf die Probe gestellt werden und ständig mit neuen Anweisungen, Menschen, Objekten und Umgebungen interagieren. "Die Gruppen, die gute Modelle trainieren, werden diejenigen sein, die entweder Zugang zu bereits großen Mengen an Roboterdaten haben oder in der Lage sind, diese Daten zu generieren", sagt er.

Laut Covariant verfügt das Modell über eine "menschenähnliche" Denkfähigkeit, hat aber auch seine Grenzen. Während einer Demonstration, bei der eine Live-Übertragung eines Covariant-Roboters sowie ein Chat-Fenster zur Kommunikation mit ihm zu sehen war, lud Chen mich ein, dem Modell eine Aufgabe zu geben. Als ich den Roboter aufforderte, "die Banane zu Einkaufstasche Zwei zurückzubringen", hatte er allerdings Mühe, seine Schritte zurückzuverfolgen, was dazu führte, dass er erst einen Schwamm, dann einen Apfel und schließlich eine Vielzahl anderer Gegenstände aufhob, bevor er schließlich die Aufgabe mit der Banane löste. "Es versteht das neue Konzept nicht", erklärte Chen, "aber es ist ein gutes Beispiel – es funktioniert vielleicht noch nicht so gut, wenn man keine guten Trainingsdaten hat."

Das neue Modell des Unternehmens verkörpert einen Paradigmenwechsel, der sich in der Welt der Robotik vollzieht. Anstatt einem Roboter durch Anweisungen wie physikalische Gleichungen und Codes beizubringen, wie die Welt funktioniert, lehren die Forscher ihn auf dieselbe Weise, wie Menschen lernen: durch Millionen von Beobachtungen. Das Ergebnis "kann wirklich als ein sehr effektives, flexibles Gehirn fungieren, um beliebige Roboteraufgaben zu lösen", sagt Chen.

Das Spielfeld der Unternehmen, die KI einsetzen, um flinkere Robotersysteme zu betreiben, wird in diesem Jahr wahrscheinlich noch voller werden. Anfang dieses Monats kündigte das auf humanoide Robotik spezialisierte Start-up Figure AI eine Partnerschaft mit OpenAI an und sammelte 675 Millionen Dollar von Tech-Giganten wie Nvidia und Microsoft ein. Marc Raibert, der Gründer von Boston Dynamics, startete kürzlich eine Initiative zur besseren Integration von KI in die Robotik. Das bedeutet, dass die Fortschritte beim maschinellen Lernen wahrscheinlich auch zu Fortschritten in der Robotik führen werden.

Einige Fragen bleiben jedoch ungelöst. Wenn große Sprachmodelle weiterhin auf Millionen von Wörtern trainiert werden, ohne die Autoren dieser Wörter zu entschädigen, wird man vielleicht auch Robotikmodelle auf Videos trainieren, ohne deren Schöpfer zu bezahlen. Und wenn Sprachmodelle halluzinieren und Voreingenommenheit verewigen, welche Probleme wird es dann analog dazu in der Robotik geben?

Covariant wird die Entwicklung erst einmal vorantreiben, da RFM-1 kontinuierlich lernen und sich verbessern soll. Schließlich wollen die Forscher den Roboter mit Videos trainieren lassen, die das Modell selbst erstellt – eine Art von Meta-Lernen, das vielen Kopfzerbrechen bereitet und auch die Frage aufwirft, was passiert, wenn sich die vom Modell gemachten Fehler häufen. Leider sehen die Forscher dies beim gegenwärtigen Hunger nach mehr Trainingsdaten als fast unvermeidlich an. "Dieses Training wird Realität sein", sagt Abbeel. "Wenn wir in einem halben Jahr noch mal darüber reden, werden wir hierüber reden."

(jle)