Metas KI-Labor wird 10 Jahre alt und zeigt drei neue Projekte

Zum 10-jährigen Jubiläum des Fundamental AI Research Teams stellt Meta drei neue Forschungsprojekte vor: Ego-Exo4D, Seamless Communication und Audiobox.

In Pocket speichern vorlesen Druckansicht

Ego-Exo4D Material aus Metas Blogbeitrag.

(Bild: ai.meta.com)

Lesezeit: 3 Min.
Von
  • Maximilian Schreiner
  • The Decoder

Meta hat drei neue Forschungsprojekte seines Fundamental AI Research (FAIR) Teams vorgestellt: Ego-Exo4D, Seamless Communication und Audiobox.

Ego-Exo4D ist ein Datensatz und Benchmarkset zur Unterstützung der KI-Forschung im Bereich des Video-Lernens und der multimodalen Wahrnehmung. Über einen Zeitraum von zwei Jahren haben Metas FAIR-Team, Project Aria und 15 Universitätspartnern aus der ganzen Welt Material gesammelt. Das umfasst sowohl "egozentrische" Ansichten aus der Kamera eines Teilnehmers, der die Project Aria-Brille trägt, als auch "exozentrische" Ansichten aus den Kameras der Umgebung. Der Datensatz konzentriert sich auf komplexe menschliche Aktivitäten wie Sport, Musik, Kochen, Tanzen und Fahrradreparaturen.

Meta sieht Anwendungen für Ego-Exo4D beispielsweise in Augmented Reality (AR) Systemen. So könnte eine Person, die eine intelligente Brille trägt, mithilfe eines virtuellen KI-Trainers, der sie durch ein Anleitungsvideo führt, schnell neue Fertigkeiten erlernen. Beim Lernen von Robotern könnte ein Roboter, der Menschen in seiner Umgebung beobachtet, mit weniger physischer Erfahrung neue Handhabungsfertigkeiten erlernen. In sozialen Netzwerken könnten neue Gemeinschaften entstehen, die darauf basieren, dass Menschen ihr Wissen und ihre komplementären Fähigkeiten in Videos teilen.

Der Datensatz mit mehr als 1400 Stunden Videomaterial wird im Dezember als Open Source verfügbar sein. Für nächstes Jahr ist ein öffentlicher Benchmark-Wettbewerb für Ego-Exo4D geplant, schreibt Meta.

Nachdem das Meta-Projekt Seamless Communication bereits im August das multimodale Übersetzungsmodell SeamlessM4T vorgestellt hat, präsentiert FAIR nun eine Familie von KI-Forschungsmodellen, die auf dem alten Modell aufbauen und eine natürlichere und authentischere Kommunikation über Sprachgrenzen hinweg ermöglichen sollen.

Das Projekt besteht aus vier Modellen:

- SeamlessExpressive: Bewahrt Ausdruck und Nuancen der Sprache über Sprachgrenzen hinweg.
- SeamlessStreaming: Liefert Sprach- und Textübersetzungen mit einer Latenz von etwa zwei Sekunden.
- SeamlessM4T v2: Ein mehrsprachiges und multitasking-fähiges Modell für mühelose Kommunikation durch Sprache und Text.
- Seamless: Vereint die Fähigkeiten von SeamlessExpressive, SeamlessStreaming und SeamlessM4T v2 in einem Modell

Meta veröffentlicht auch eine Demo von SeamlessExpressive, mit der Interessierte ihre Stimme übersetzen lassen können.

Audiobox ist Metas neues Modell zur Generierung von Audio. Es ist in der Lage, Stimmen und Soundeffekte durch eine Kombination von Spracheingabe und natürlichsprachlichen Textprompts zu erzeugen, was die Erstellung von benutzerdefinierten Audiodateien für verschiedene Anwendungsfälle erleichtern soll.

Im Vergleich zu seinem direkten Vorgänger, Voicebox, bietet Audiobox eine verbesserte Kontrollierbarkeit, da die Benutzer natürlichsprachliche Prompts verwenden können, um einen gewünschten Klang oder eine bestimmte Art von Sprache zu erzeugen.

Das Modell wird zunächst einer ausgewählten Gruppe von Forschern und akademischen Einrichtungen zur Verfügung gestellt, um den Stand der Technik in der Forschung zur Audiogenerierung voranzutreiben und eine verantwortungsvolle Entwicklung von künstlicher Intelligenz zu gewährleisten.

(emw)