Googles KI-Modell: Gemini 1.5 und 1.5 Pro sind da

Google verspricht eine "drastisch verbesserte Leistung" mit Gemini 1.5. Das KI-Modell soll besonders langen und multimodalen Kontext verstehen können.

In Pocket speichern vorlesen Druckansicht 19 Kommentare lesen
Google-Logo an der Konzernzentrale in Mountain View

(Bild: Skorzewiak/Shutterstock.com)

Lesezeit: 4 Min.

Erst vergangene Woche hat Google Bard in Gemini umgetauft, nun gibt es schon eine neue Version: Gemini 1.5 und 1.5 Pro sind ab sofort verfügbar, dazu kommt Gemini 1.0 Ultra, auf das Entwickler und Cloudnutzer über die API in AI Studio und Vertex AI zugreifen können.

Gemini gibt es grundsätzlich in drei Varianten: Ultra als leistungsfähigstes Modell, Pro als Mittelklasse und Nano als besonders schlankes Modell, das etwa in Smartphones integriert werden kann. Wie Google am Donnerstag mitteilt, ist das neu vorgestellte Gemini 1.5 Pro von den Ergebnissen vergleichbar mit 1.0 Ultra, wobei 1.5 Pro weniger Rechenleistung benötigen soll.

Zudem spricht Google von einem "Durchbruch" beim Verstehen besonders langer Kontexte. Bis zu einer Million Token soll Gemini 1.5 Pro auf einmal verarbeiten können. Token können Bestandteile aus Wörtern, Bildern, Videos, Audio und Code sein. Gemini 1.0 war in der Lage, 32.000 Token zu verarbeiten. Das entspricht etwa einer Stunde Video, 700.000 Wörtern oder 30.000 Zeilen Code. Das von OpenAI entwickelte GPT-4 Turbo, das weitläufig als derzeit bestes KI-Sprachmodell angesehen wird, kann im Vergleich bis zu 128.000 Token verarbeiten, die Ausgabe beschränkt sich auf 4096 Token.

Kein anderes Foundation-Modell könne so viel leisten wie Gemini, sagt Google. "Längere Kontextfenster zeigen uns, was alles möglich ist. Sie werden völlig neue Funktionen ermöglichen und Entwicklern helfen, viel nützlichere Modelle und Anwendungen zu erstellen." Zunächst können nur Entwickler und Unternehmenskunden auf eine "begrenzte Preview der Experiment-Funktion" zugreifen. Wer genau das ist – unklar.

Gemini 1.5 Pro ist ein multimodales Modell, optimiert für eine große Bandbreite an Aufgaben. Es ist ein Transformer-Modell mit einer neuen Mixed-of-Experts (MoE)-Architektur. Das heißt, es ist nicht ein großes neurales Netzwerk, sondern wird aus mehreren Experten-Netzwerken zusammengesetzt. Bei Anfragen reagiert das jeweils am besten für eine Aufgabe geeignete Netzwerk – was das Modell laut Google so besonders effizient machen soll.

Im Normalfall kommt Gemini 1.5 Pro mit einer 128.000 Token Begrenzung daher, Preise will Google demnächst bekannt geben. Nur die ausgewählten Tester können die Millionen-Grenze nutzen. Dazu müssen sie über AI Studio oder Vertex AI gehen, Googles KI-Plattformen. Bis alle Menschen von der neuen Obergrenze profitieren können, will Google nach eigenen Angaben vor allem noch an der Latenz arbeiten. Offensichtlich dauert es seine Zeit, bis Gemini 1.5 Pro derart viel Kontext verarbeiten kann. Und auch die Arbeiten an der nötigen Rechenleistung sowie die Nutzererfahrung sind noch nicht abgeschlossene Prozesse.

1.5 Pro übertrifft 1.0 Pro bei 87 Prozent der Benchmarks, die für die Entwicklung unserer großen Sprachmodelle (LLMs) verwendet wurden. Eine weitere Fähigkeit des LLM ist das Lernen neuer Fähigkeiten aus dem Kontext. Dadurch sei weniger Finetuning nötig – das ist quasi der nachgelagerte Schritt, nachdem ein KI-Modell trainiert wurde, um es weiter zu schleifen.

Kunden von Vertex AI können neben Gemini 1.0 Pro auch auf Gemini 1.0 Ultra zugreifen. "Die Gemini-API in Vertex AI ermöglicht es Entwicklern, die nächste Generation von KI-Agenten und -Anwendungen zu entwickeln – die gleichzeitig Informationen aus verschiedenen Modalitäten wie Text, Code, Bilder und Video verarbeiten können."

(emw)