Gemini ist eine generative Künstliche Intelligenz von Google. Gemini ist von Grund auf multimodal konzipiert und baut auf den Google-Sprachmodellen LaMDA und PaLM 2 auf. Die Google-KI ist eine Konkurrenz zu GPT-4 von OpenAI und soll in vielen KI-Benchmarks deutlich besser abschneiden.
Multimodales KI-Modell von Google: Gemini ist weitestgehend in der Lage, Informationen aus einer Vielzahl verschiedener Quellen (Text, Bild, Audio, Video und Programmiersprachen) korrekt zu interpretieren.
Gemini ist der Name einer von Google DeepMind entwickelten und am 6. Dezember 2023 angekündigten generativen Künstlichen Intelligenz. Nach eigener Aussage ist Gemini das bisher größte, leistungsfähigste und vielseitigste von Google entwickelte und realisierte KI-Modell. Es ist von Grund auf multimodal konzipiert und kann mit verschiedenen Arten von Informationen wie Text, Bilder, Videos, Audio und Programmcode umgehen, diese analysieren, verstehen, kombinieren und generieren. Besonders fortgeschritten sollen die multimodalen Argumentationsfähigkeiten von Gemini sein.
Gemini baut auf den ebenfalls von Google entwickelten Sprachmodellen LaMDA und PaLM 2 auf und wird in den drei Größen und Leistungsstufen Nano, Pro und Ultra zur Verfügung stehen. Gemini ist als Konkurrenz zu GPT-4 von OpenAI zu sehen. In vielen KI-Benchmarks soll die Google-KI deutlich besser abschneiden als GPT-4. Google plant die generative KI Gemini in viele eigene Produkte und Dienste zu integrieren wie in die Websuche, in Google Pixel Smartphones, in Entwicklungstools, in den Browser Chrome und in vieles mehr.
Gemini 1.0 ist in der Form von Gemini Pro bereits in mehr als 170 Ländern in englischer Sprache im multimodalen Chatbot Bard integriert und soll dessen Leistung und Qualität verbessern. In Europa steht Bard mit Gemini Pro noch nicht in Verfügung, ist aber in Planung. Das Smartphone Google Pixel 8 Pro ist als erstes Smartphone mit Gemini Nano ausgestattet. Die KI erweitert die Funktionalität des Smartphones.
Die drei verfügbaren Modellgrößen von Gemini
Gemini 1.0 gibt es in diesen drei verschiedenen Modellgrößen und Leistungsstufen:
Gemini Nano
Gemini Pro
Gemini Ultra
Jede der drei Varianten ist für bestimmte Anforderungen vorgesehen und setzt unterschiedliche Computing-Leistungen voraus.
Google ruft die Gemini Ära aus. Drei Modelle stehen zur Auswahl: Ultra, Pro und Nano.
Die kleinste Größe ist Gemini Nano. Das Nano-Modell ist auf die lokale Ausführung zum Beispiel auf Mobilgeräten wie Smartphones zugeschnitten. Google hat zwei unterschiedliche Nano-Versionen Nano-1 und Nano-2 mit 1,8 Milliarden und 3,25 Milliarden Parametern trainiert, um das KI-Modell auf Geräten mit unterschiedlicher Hardware- und Speicherausstattung betreiben zu können. Das erste Smartphone mit integriertem Gemini Nano ist das Google Pixel Pro mit seinem Tensor-G3-Prozessor. Gemini Nano zeigt grundsätzliche Fähigkeiten der größeren Gemini-KI-Modelle, ist aber weniger leistungsfähig und speziell für die lokale Ausführung auf Mobilgeräten optimiert und "verdichtet". Nutzbar ist die KI beispielsweise, um Tonaufnahmen in Echtzeit zu transkribieren oder zusammenzufassen oder per Bildschirmtastatur Gboard automatisch auf Nachrichten zu antworten.
Google bezeichnet die mittlere Modellgröße Gemini Pro als die Basisversion des multimodalen KI-Modells. Gemini Pro kommt bereits seit Dezember 2023 in 170 Ländern (nicht in Europa) in Googles KI-Chatbot Bard zum Einsatz. Die KI soll dazu beitragen, die Fähigkeiten des Chatbots und die Qualität der Antworten von Bard weiter zu verbessern.
Der Start des leistungsfähigsten und größten Modells Gemini Ultra ist für Anfang des Jahres 2024 vorgesehen. Ultra eignet sich für die Bearbeitung und Lösung hochkomplexer multimodaler Aufgaben und Fragestellungen. Das KI-Modell ist auf die Anforderungen von Unternehmenskunden ausgerichtet und wird in den Rechenzentren von Google auf einer performanten, KI-beschleunigten Architektur mit Tensor Processing Units (TPUs) ausgeführt werden.
Bildergalerie
Fähigkeiten und Benchmark-Ergebnisse von Gemini
Gemini ist ein von Grund auf multimodal konzipiertes KI-Modell. Es unterscheidet sich dadurch von Sprachmodellen und Chatbots, die auf das Verarbeiten und Generieren von Text beschränkt sind. Neben Informationen in Textform kann Gemini Eingaben bestehend aus Programmcode, Bildern, Videos oder Audio entgegennehmen, analysieren, verstehen, nahtlos kombinieren und generieren.
Das Modell wurde direkt mit den verschiedenen Eingabeformen trainiert und versteht beliebige Kombinationen bestehend zum Beispiel aus Zeichnungen, handgeschriebenem Text oder Gesten in Live-Videos. Aufgrund dieser Multimodalität ist Gemini vielseitig einsetzbar. Das KI-Modell ist in der Lage, komplexe Fragestellungen zu beantworten und multimodal zu argumentieren. Diese Fähigkeiten wirken sich unter anderem auf die Bearbeitung von Aufgabenstellungen in Bereichen wie Mathematik, Physik, Medizin, Geschichte oder Ethik positiv aus.
Im Bereich Programmierung unterstützt Gemini in der Version 1.0 die gängigen Programmiersprachen wie Python, Java, C++ oder Go. Die KI kann Programmcode analysieren, kommentieren beziehungsweise erklären und auf Anweisung generieren. In Codier-Benchmarks zeigt Gemini eine starke Leistung.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
In zahlreichen weiteren KI-Benchmarks liegt Gemini Ultra, die größte Version des KI-Modells, ebenfalls vor dem Konkurrenzmodell von OpenAI GPT-4. Die Google-Entwickler betonen, dass Gemini gegenüber GPT-4 vor allem in Bereichen wie Leseverständnis, mehrstufiges Denken, Multimodalität, Bildverständnis, Bild-OCR, Arithmetik und Programmierung Vorsprung hat.
Massive Multitask Language Understanding
Zudem ist Gemini das erste KI-Modell, das menschliche Experten im MMLU-Test (Massive Multitask Language Understanding) übertrifft. Gemini Ultra zeigt in Bereichen wie Mathematik, Physik, Informatik, Geschichte, Recht, Medizin und Ethik großes Wissen und erreicht im MMLU-Test ein Ergebnis von 90 Prozent. Auch im MMMU-Benchmark (Massive Multi-disciplin Multimodal Understanding and Reasoning) erzielt das KI-Modell mit 59,4 Prozent einen Spitzenwert. Dieser Test deckt Bereiche wie Kunst, Design, Wirtschaft, Gesundheit, Medizin, Geistes- und Sozialwissenschaften, Technik, Ingenieurwesen und andere ab.
Nach der ersten Vorstellung von Gemini gab es einige Kritik an Google, da gezeigte Demos bearbeitet waren, um das KI-Modell leistungsfähiger und schneller erscheinen zu lassen. Die tatsächliche Leistungsfähigkeit von Gemini muss sich in realen Anwendungen daher noch zeigen.
API-Zugriff auf Gemini für Entwickler und Unternehmen
Seit 13. Dezember 2023 können Entwickler und Unternehmen über eine API von Google AI Studio oder Google Cloud Vertex AI auf Gemini Pro zugreifen. Mithilfe des API-Zugangs und dem webbasierten Entwicklertool Google AI Studio ist es beispielsweise möglich, eigene auf Gemini aufsetzende Anwendungen zu entwickeln und zu realisieren. Die voll verwaltete KI-Plattform Vertex AI bietet KI-Dienste und ermöglicht es Unternehmen, Gemini unter vollständiger Datenkontrolle mit eigenen Daten anzupassen und fein abzustimmen. Zukünftig soll auch das große Modell Gemini Ultra per API verfügbar sein.
Für Android-Entwickler steht das On-Device-Modell Gemini Nano über AICore für die Entwicklung und Ausführung lokaler Apps direkt auf Endgeräten wie Smartphones zur Verfügung. AICore setzt Android 14 voraus und ist zuerst auf dem Pixel 8 Pro verfügbar. Die APIs für die Nutzung von AICore und zur Ausführung von Gemini Nano werden als Teil des Google AI Edge SDK bereitgestellt.
Architektur und Training von Gemini
Gemini baut auf den Google Sprachmodellen LaMDA und PaLM 2 auf und basiert, wie fast alle aktuellen generativen Large Language Models, auf einer Transformer-Architektur. Die Architektur wurde für die Skalierung der Trainingsfähigkeiten optimiert. Gemini ist für eine Kontextlänge von 32.000 Token trainiert, hat einen Multi-Query-Aufmerksamkeitsmechanismus und unterstützt Google-TPUs. Im Gegensatz zu vielen anderen Modellen ist die Multimodalität des Modells nicht durch das nachträgliche Zusammenfügen von Modellen und Komponenten mit unterschiedlichen Modalitäten entstanden.
Gemini wurde von Grund auf multimodal konzipiert und direkt mit Daten verschiedener Modalitäten (Text, Bilder, Video, Audio) trainiert. Für das visuelle Encoding kommen Grundlagenarbeiten von Google wie Flamingo, CoCa oder PaLI zum Einsatz. Videos werden als Sequenzen von Frames kodiert. Als Eingabedaten lassen sich sowohl Video-Frames als auch Bilder oder Audiodaten und Text miteinander vermischen. Als Output liefert Gemini ebenfalls multimodale Inhalte.
Das Datenmaterial für das Training besteht aus Webdokumenten, Büchern, Programmcode, Bildern, Audio und Videos. Die Daten sind multilingual und wurden vor dem Training nach Qualitäts- und Sicherheitskriterien gefiltert. Je nach Modellgröße wurde Gemini mit einer unterschiedlichen Anzahl von Token trainiert. Für das Training kamen Rechnerzusammenschlüsse mit Tensor Processing Units (TPUs) v4 und v5e zum Einsatz. Konfiguriert als SuperPods und verbunden über Google-Intra-Cluster- und -Inter-Cluster-Netzwerke erstreckt sich die Trainingsinfrastruktur über mehrere Rechenzentren.
Das Pretraining für Gemini Ultra ist trotz hoher Rechenleistung sehr zeitaufwendig und erfordert mehrere Wochen Zeit. Für die Nano-Versionen des Modells kommen Optimierungen der Trainingsalgorithmen zum Einsatz, um kleine, lokal ausführbare Modelle mit hoher Leistungsfähigkeit zu erhalten.
Microservices, Cloud Native, REST API , Kubernetes & Co.: Cloud Computing Wiki
Von AWS bis XaaS: Alle relevanten Schlagworte aus dem Bereich Cloud Computing finden Sie verständlich erklärt in unseren Definitionen. Ganz im Sinne eines kleinen, aber feinen Glossars lesen Sie hier neutral verfasste und leicht verständliche Erklärungen zu den wichtigsten Begriffen. Als Service für Sie haben wir die hier erklärten Begriffe in unseren Beiträgen auch direkt mit den zugehörigen Lexikoneinträgen verlinkt. So können Sie die wichtigsten Erläuterungen direkt dort nachschlagen.