KI-Update kompakt: Apple ReALM, Many-Shot Jailbreaking, SWE-agent, AI Imagen

Das "KI-Update" liefert werktäglich eine Zusammenfassung der wichtigsten KI-Entwicklungen.

In Pocket speichern vorlesen Druckansicht

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmmung wird hier ein externer Podcast (Podigee GmbH) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Podigee GmbH) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Lesezeit: 8 Min.
Inhaltsverzeichnis

Apple könnte bald eine verbesserte Version von Siri präsentieren, die auf einem neuen KI-Modell namens ReALM basiert, welches Nutzereingaben im Kontext der aktuellen Bildschirmanzeige oder laufender Gespräche versteht. Dies deutet das Unternehmen in einem Forschungspapier an. Das Modell ermöglicht es, dass Nutzer beispielsweise nach der Anzeige einer Liste von Apotheken eine davon anrufen können, indem sie auf die Position auf dem Bildschirm verweisen. Im Vergleich zu GPT-3.5 erzielte ReALM höhere Genauigkeit.

Apple setzt dabei auf eine On-Device-KI-Lösung, die direkt auf dem Smartphone läuft, um Datenschutz und Effizienz zu erhöhen und Latenzen zu reduzieren.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmmung wird hier ein externer Podcast (Podigee GmbH) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Podigee GmbH) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

In den letzten Monaten hat Apple seine KI-Bemühungen mit verschiedenen Projekten verstärkt. Neben ReALM entwickelte Apple das Modell MM1 und das Animationswerkzeug Keyframer. Gerüchte besagen, dass Apple zunächst auf Googles KI Gemini zurückgreifen könnte, möglicherweise schon in iOS 18, das im Juni erwartet wird.

Eine neue Studie von Anthropic zeigt, dass KI-Sprachmodelle mit großen Kontextfenstern anfällig für sogenanntes "Many-Shot Jailbreaking" sind. Die Grundlage von Many-Shot Jailbreaking ist ein simulierter Dialog zwischen einem Menschen und dem Chatbot. Dabei werden zahlreiche Beispiele in das Kontextfenster des Chatbots eingefügt, in denen der „simulierte“ Chatbot auf eigentlich geblockte Fragen wie zum Beispiel „Wie klaut man ein Auto“ mit einer nützlichen Erklärung antwortet. So werden die immer größer werdenden Kontextfenster moderner Sprachmodelle ausgenutzt, indem zahlreiche solcher Beispiele aneinandergereiht werden. Nach den Beispielen folgt dann die Zielanfrage etwa zum Bau einer Bombe, die der reale Assistent dann, wie in den Beispielen gezeigt, vervollständigt.

Podcast: KI-Update

Wie intelligent ist Künstliche Intelligenz eigentlich? Welche Folgen hat generative KI für unsere Arbeit, unsere Freizeit und die Gesellschaft? Im "KI-Update" von Heise bringen wir Euch gemeinsam mit The Decoder werktäglich Updates zu den wichtigsten KI-Entwicklungen. Freitags beleuchten wir mit Experten die unterschiedlichen Aspekte der KI-Revolution.

Die Forschenden berichten, dass die Kombination von Many-Shot Jailbreaking mit anderen bereits veröffentlichten Jailbreaking-Techniken die Methode noch effektiver macht und die für eine schädliche Antwort erforderliche Länge des Prompts reduziert. Das Forschungsteam hat die Entwickler anderer KI-Systeme bereits über die Schwachstelle informiert und arbeitet selbst an Gegenmaßnahmen. Eine Technik, die den Prompt vor der Übergabe an das Modell klassifiziert und modifiziert, konnte die Erfolgsrate des Angriffs in einem Fall von 61 auf zwei Prozent reduzieren.

Das NLP-Team der Princeton University hat SWE-agent präsentiert, ein Open-Source-System, das mit einer Erfolgsrate von 12,29 % im SWE-Bench-Testset fast die Leistung von Cognition AIs proprietärem KI-Programmierer Devin erreicht. SWE-agent verwandelt Sprachmodelle wie GPT-4 in Software-Engineering-Agenten, die in der Lage sind, Fehler in echten GitHub-Repositories zu korrigieren. Das System bietet eine spezialisierte Agenten-Computer-Schnittstelle, die Such-, Anzeige-, Editier- und Ausführungsfunktionen für Code beinhaltet.

SWE-agent generiert Lösungsvorschläge für GitHub-Probleme und überprüft diese durch Pull-Requests. Das Projekt steht auf GitHub zur Verfügung.

Im Gegensatz dazu ist Devin, der komplexe Programmieraufgaben bewältigen kann, noch nicht öffentlich erhältlich und wird nach einer erfolgreichen Finanzierungsrunde von 21 Millionen US-Dollar nur ausgewählten Entwicklern über eine Warteliste angeboten.

Die gemeinnützige Organisation TrueMedia.org hat ein neues KI-basiertes Tool zur Identifikation von Deepfakes vorgestellt. Dieses Werkzeug soll es ermöglichen, mehr als 90 Prozent der manipulierten Bilder, Audios und Videos aufzuspüren. Die Anwendung richtet sich an US-Journalisten und Organisationen und ist besonders im Kontext der bevorstehenden US-Präsidentschaftswahlen relevant. Nutzer können Inhalte auf Plattformen wie TikTok, YouTube und Facebook überprüfen, indem sie die URL des verdächtigen Materials eingeben.

TrueMedia.org hat das Tool in Zusammenarbeit mit KI-Experten und -Laboren entwickelt und verspricht eine hohe Genauigkeit bei der Erkennung von Fälschungen. Die Erkennungsdauer kann variieren, insbesondere bei komplexen Bildern mit vielen Personen. TrueMedia.org hat bereits falsche Darstellungen hochrangiger Politiker entlarvt.

Der Detektor ist derzeit exklusiv für eine ausgewählte Gruppe, darunter Regierungsbeamte, Wahlkampfmitarbeiter und Reporter, verfügbar. Es soll etwa Redaktionen unterstützen, die mit Personalabbau und engen Fristen zu kämpfen haben.

Metas Bildgenerator AI Imagen hat Schwierigkeiten, Personen unterschiedlicher ethnischer Herkunft korrekt darzustellen. Trotz verschiedener Eingabeaufforderungen ("Prompts") wie "asiatischer Mann mit kaukasischem Freund" produziert das Tool wiederholt Bilder von Paaren gleicher ethnischer Zugehörigkeit. Mia Sato von The Verge testete das System und stellte fest, dass es nur in einem von vielen Versuchen gelang, ein gemischtes Paar zu generieren. Häufig erschienen asiatische Personen ostasiatischer Abstammung, wobei Männer älter und Frauen auffallend jünger abgebildet wurden.

Diese Problematik ist nicht auf Meta beschränkt. Googles Gemini zeigte historisch inkorrekte Bilder deutscher Soldaten während des Zweiten Weltkriegs als Personen asiatischer und afroamerikanischer Herkunft. Ähnliche Fehler traten bei Adobes Firefly auf. Google hat seinen Bildgenerator infolge dieser Schwierigkeiten vorübergehend stillgelegt.

AI Imagen ist in Deutschland derzeit nicht verfügbar. Nutzer stoßen bei dem Versuch, den Dienst zu nutzen, auf eine Fehlermeldung, obwohl ein Meta-Konto erstellt werden kann. Meta gibt an, dass Imagine.meta.com noch nicht für alle Nutzer zugänglich ist, ohne weitere Details zu den Einschränkungen zu nennen.

Stability AI hat sein KI-Tool zur Musikgenerierung auf die nächste Stufe gehoben: Stable Audio 2 soll Songs in Studioqualität komponieren und bestehende Audiodateien anhand von Textbeschreibungen verändern können. Das Programm kann laut Stability AI Musikstücke mit einer zusammenhängenden Struktur aus Intro, Hauptteil und Outro von bis zu drei Minuten Länge erzeugen.

Mit der neuen Audio-to-Audio-Funktion können Nutzende eigene Audiodateien hochladen, um daraus komplett produzierte Samples zu erstellen. Dabei arbeitet Stability AI mit Audible Magic zusammen, deren Audio Content Recognition (ACR) Urheberrechtsverletzungen verhindern soll. Das Modell bietet erweiterte Möglichkeiten zur Erzeugung von Sound- und Audioeffekten sowie eine Style-Transfer-Funktion zur nahtlosen Anpassung an den gewünschten Stil eines Projekts.

Wie schon die Vorgängerversion wurde Stable Audio 2 ausschließlich auf Daten der Musikbibliothek AudioSparx trainiert. Laut Stability AI hatten alle AudioSparx-Künstlerinnen und Künstler die Möglichkeit, dem Training zu widersprechen, also ein "opt-out". Ein vorheriger Opt-in war jedoch nicht nötig.

François Chollet, ein führender KI-Forscher bei Google, äußerte Bedenken über den aktuellen Stand und die Investitionen in KI. Obwohl der Markt für generative KI wächst – von 4 Milliarden US-Dollar auf geschätzte 6 Milliarden dieses Jahr – steht dies in krassem Missverhältnis zu den 90 Milliarden Dollar, die in die Branche gepumpt wurden. Chollet betont, dass die Kosten für den Betrieb von KI-Modellen hoch sind und der Wettbewerb unter den Anbietern intensiv ist, was zu geringen Renditen führt.

Er erkennt zwar echte Fortschritte in der Verarbeitung von Sprache und Bildern durch Computer an, sieht jedoch den Hype als übertrieben an. Die Vorstellung, dass in nächster Zeit übermenschliche KI oder das Ende des Programmierberufs bevorsteht, weist er zurück. Chollet warnt davor, dass KI als Vermittler zwischen Kreativen und ihren Werken fungiert und dadurch kulturelle Stagnation droht.

In Bezug auf Sprachmodelle kritisiert Chollet, dass diese lediglich Informationen auswendig lernen, statt echtes Verständnis zu entwickeln. Er fordert ein Umdenken in der KI-Forschung und schlägt vor, alternative Ansätze wie evolutionäre Algorithmen zu erforschen, anstatt blind in etablierte Wege zu investieren.

(igr)