google gemini

Google Gemini: Alles, was Sie über die multimodale KI der nächsten Generation von Google wissen müssen

Stefan
17 Min Read
google gemini

Google Gemini ist da, mit einem völlig neuen Ansatz für multimodale KI: Das sollten Sie wissen.

Zwillinge sollen ein zentraler Bestandteil der Identität von Google werden. Es ist der neue Name für Googles experimentellen ChatGPT-Konkurrenten Bard und das zugrunde liegende große Sprachmodell, das die Antworten liefert. Es ersetzt außerdem Duet AI in Workspace sowie Google Assistant auf Ihrem Telefon, wobei die längeren und leistungsfähigeren KI-generierten Antworten Ihnen umfassendere Informationen liefern. Wie Sie sehen, ist Gemini eine Summe verschiedener Produkte, was die Erklärung ziemlich kompliziert macht. Wir sind hier, um Ihnen zu helfen, zu verstehen, was es ist, wie es funktioniert und was Sie davon erwarten können.

Was ist Google Gemini?

Gemini ist Googles neueste Weiterentwicklung von Bard und Assistant

Am 8. Februar 2024 kündigte Google ein umfassendes Rebranding von Bard, seinem experimentellen KI-Chatbot, an. Das Tool heißt jetzt Gemini , bietet aber im Wesentlichen immer noch die gleichen Funktionen wie Bard zuvor, abgesehen von einer geringfügigen Neugestaltung der Website. Im einfachsten Sinne handelt es sich bei dieser Version von Gemini um eine Schnittstelle für Sie, die es ermöglicht, das große Sprachmodell von Google zu nutzen. Weitere beliebte generative KIs sind ChatGPT und DALLE-E. Generative KIs können Video, Audio und Bilder erstellen. Als KI-Chatbot konzentriert sich Gemini auf die Erstellung von Texten, die Ihre Fragen auf natürliche und verständliche Weise beantworten, wurde aber kürzlich auch aktualisiert, um die Bildgenerierung zu unterstützen.

Gemini ist als kostenloses Produkt erhältlich. Wenn Sie jedoch auf mehr Funktionen zugreifen und genauere Antworten erhalten möchten, können Sie auch das neue Gemini Advanced abonnieren. Es ist Teil des Google One-Abonnements, das nach der Einführung von Gemini eine neue Stufe erhielt. Der neue Google One AI Premium-Plan ist für 26 US-Dollar pro Monat oder 20 US-Dollar bei jährlicher Zahlung erhältlich. Neben dem Zugriff auf ein besseres KI-Modell bietet es auch 2 TB Google Drive-Speicher und weitere Google One-Funktionen .

Gemini kommt auch zu Google Workspace. Derzeit verfügt die Office-Suite über einen „Duet AI“-Chatbot, der in „Gemini for Workspace“ umbenannt wird. Wer den Google One AI Premium-Plan abonniert, erhält genau wie Unternehmen Zugriff auf Gemini in Gmail, Drive, Docs und mehr. Der neue Name wird auch für Google Cloud-Kunden eingeführt.

Zusammen mit der Umbenennung von Bard veröffentlichte Google auch eine Gemini-App für Android, die für die ältere Version des Chatbots nie verfügbar war. Sobald Sie Gemini auf Ihrem Telefon installiert oder es über Google Assistant aktiviert haben, können Sie darauf umschalten. Dadurch werden einige neue Funktionen auf Ihrem Telefon freigeschaltet. Sie können den bekannten Sprachbefehl „Hey Google“ verwenden, um darauf zuzugreifen und ihm Fragen zu stellen. Gemini weiß, was auf Ihrem Bildschirm angezeigt wird, sodass Sie ihn bitten können, Text oder Antworten basierend auf dem, was sichtbar ist, zu generieren. Über Gemini sind auch zahlreiche Google Assistant-Funktionen verfügbar, etwa das Einstellen von Timern, die Möglichkeit zum Tätigen von Anrufen und die Steuerung von Smart Homes. Google arbeitet daran, diese Legacy-Funktionalität in Zukunft zu erweitern.

Gemini Advanced ist in über 150 Ländern auf Englisch verfügbar und wird in Zukunft in weiteren Regionen und Sprachen eingeführt. Das neue Gemini-Android-Erlebnis ist in den USA nur auf Englisch verfügbar. Google führt es schnell in weiteren Regionen ein. Überprüfen Sie daher regelmäßig, ob Sie Zugriff darauf haben.

Gemini ist auch Googles bisher leistungsstärkstes generatives KI-Modell

Kommen wir nun zu dem Modell, das die zuvor besprochene Chat- und Sprachschnittstelle antreibt und verwirrenderweise auch Gemini genannt wird. Bei diesem Gemini handelt es sich um eine Suite generativer KI-Dienste, die speziell für Unternehmen vermarktet werden, die ihre KI-Dienste erweitern möchten. Es handelt sich um eine Familie multimodaler KI-Modelle (wir werden weiter unten näher darauf eingehen), die vom Google DeepMind-Projekt erstellt wurden.

Google Gemini ist noch neu. Google hat im Dezember 2023 eine auf Englisch abgestimmte Version von Gemini Pro zu Google Bard hinzugefügt. Trotz des Namens beschreibt Google Gemini Pro als die „Lite“-Version des KI-Modells, obwohl es für uns eher wie die Standardversion aussieht. Zur Familie gehört auch Gemini Ultra, die Premium-KI, die Google zum Flaggschiff der Suite machen will. Dies ist die Basis für die kostenpflichtige Version des Gemini Advanced-Chatbots.

Gemini Nano rundet das Trio ab. Nano ist die mobilfreundliche Version des großen Sprachmodells, das mit dem Feature Drop im Dezember auf dem Google Pixel 8 Pro eingeführt wurde . Es ermöglicht die Verarbeitung auf dem Gerät und wird schließlich auch auf andere Android-Telefone Einzug halten.

Es sieht so aus, als ob Google langsam davon abkommt, Gemini als Namen für sein zugrunde liegendes Sprachmodell zu verwenden. Als bekannt gegeben wurde, dass Bard in Gemini umbenannt wird , führte das Unternehmen die kostenpflichtige Version als „Gemini Advanced with Ultra 1.0“ ein und nannte die kostenlose Version „Gemini with Pro 1.0“. Dadurch werden nicht so elegante Namensschemata wie „Gemini Advanced powered by Gemini Ultra“ vermieden.

Ist Google Gemini ein Chatbot? Kann es Inhalte erstellen?

Wie oben besprochen, kann Gemini durchaus Inhalte erstellen, aber Gemini ist weitaus ehrgeiziger als ein Chatbot, und das bedarf einer Erklärung.

Gemini ist technisch gesehen ein LLM- oder Large-Language-Modell , was bedeutet, dass es sich um ein Framework für maschinelles Lernen handelt, das gelehrt wird, indem eine Menge menschlicher Dinge (im Allgemeinen Online-Inhalte) hineingelegt und ihm dabei geholfen wird, Regeln zum Verständnis dieser Inhalte zu erstellen. Wenn Sie das genug tun, können LLMs Sprachdaten ausreichend verarbeiten, um ihre eigenen Sätze zusammenzustellen und bestimmte Stile nachzuahmen, wie wir es bei ChatGPT und Bard sehen – wie erfahrene Rätsellöser, die mathematische Methoden entwickeln, um menschliche Sprache zu „lösen“. Je mehr sie lernen, desto besser können sie darin werden.

Die meisten LLMs spezialisieren sich nur auf ein paar Dinge, etwa Sprache oder Bilder. Das hilft ihnen, konzentriert zu bleiben und reduziert den enormen Ressourcenbedarf, den sie normalerweise benötigen. Google ist besonders geschickt darin, effiziente KI-Modelle zu erstellen, die tiefgreifend auf ein begrenzteres Spektrum an Inhalten trainiert sind, was im Gegensatz zum System von OpenAI steht, das fast alles, was es kann, auf die KI wirft.

Gemini scheint sich jedoch von den bestehenden Modellen zu unterscheiden, da es von Anfang an multimodal trainiert wurde. Multimodal bedeutet lediglich, dass die KI alle Arten von Inhalten lernen und erstellen kann, nicht nur eine „Sprache“. Zwillinge können mit Sprache, Übereinstimmungen, Denkproblemen, Code, Bildern (einschließlich Emojis), Video, Audio und mehr umgehen. Es ist wie der Universalgelehrte oder Renaissance-Mann der LLM-Welt.

Wie Sie anhand unserer Bildbeispiele sehen können, scheint Gemini dadurch sehr gut darin zu sein, den Kontext zu verstehen und diese Informationen für Benutzer unabhängig vom Thema richtig zu interpretieren.

Basierend auf den Daten, die uns vorliegen, scheint Gemini sehr gut darin zu sein, was es innerhalb seines Wirkungsbereichs tut. Beim Massive Multitask Language Understanding (MMLU)-Test erreichte es 90 %, was besser ist als die meisten Sprachexperten und im Einklang mit der bisherigen Leistung von Google. Laut Google übertrifft Gemini außerdem bestehende KI-Modelle in 30 von 32 akademischen Tests, die zur Bewertung von LLMs verwendet werden. Andere Berichte besagen jedoch auch , dass Gemini Pro zwar GPT-3.5 schlagen kann (das einen Großteil der ChatGPT-Inhalte, die wir dieses Jahr gesehen haben, unterstützt), aber vom neueren GPT-4 geschlagen wird, während Gemini Ultra GPT-4 knapp schlägt. Es ist im Moment ein sehr wettbewerbsintensives Feld.

Keine KI auf dem Markt ist derzeit so multimodal wie Gemini, was bedeutet, dass Unternehmen, die diese trainierte KI verwenden, sie an fast alles anpassen können. Das ist von besonderem Wert für Unternehmen, die KI-Dienste möglicherweise so anpassen möchten, dass sie von der Erkennung gefälschter Handtaschen bis zur Nachahmung eines hilfsbereiten schwedischen Onkels in einem Kundenservice-Chat reichen. Google erwähnt auch einige andere Möglichkeiten, wie zum Beispiel:

  • Den Schülern physikalische Probleme erklären
  • Rohes Audio verarbeiten, um nach bestimmten Signalen zu suchen
  • Analysieren der Benutzerabsicht, anpassbare Kits und Pakete für eine Person zu erstellen
  • Wir helfen Wissenschaftlern, Links in veröffentlichten Forschungsergebnissen zu erkennen, die ihnen entgangen wären
  • Gewinnen Sie alle wettbewerbsorientierten Programmierwettbewerbe, bei denen es erlaubt ist

Unterscheidet sich Google Gemini von Google Bard?

Ja. Gemini unterscheidet sich von Google Bard, aber ein wenig Kontext macht diese Antwort weitaus weniger verwirrend. Bis Februar 2024 war Google Bard die Benutzeroberfläche, die Google mit seinen verschiedenen LLMs verwendete. Der ursprüngliche Bard, der Anfang 2023 auf den Markt kam, war ein viel früherer Versuch einer verbraucherorientierten KI (denken Sie daran, dass im Kontext dieser KI-LLMs Anfang der 2020er Jahre sogar mehrere Monate eine lange Zeit sein können).

Bei seiner Einführung im März 2023 nutzte Bard das LaMDA- Modell (Language Model for Dialogue Applications) von Google . Einige Monate später erhielt Bard mit der Veröffentlichung von PaLM 2 bei Google I/O sein erstes großes Update . Im Dezember 2023 spendierte Google Bard mit der Umstellung auf das Gemini Pro-Modell sein bislang größtes Update. Im Februar 2024 wurde die Marke Bard komplett eingestellt, die Schnittstelle selbst heißt nun auch Gemini.

Was hat es mit PaLM 2 auf sich, nachdem Gemini veröffentlicht wurde?

Es ist kompliziert und wir haben keinen guten Blick hinter die Kulissen. PaLM 2 war ein umfangreiches Update von Googles sprachfokussiertem LLM, das Anfang 2023 erstellt wurde. PaLM 2 zeichnet sich durch Sprachaufgaben wie Übersetzungen aus, und obwohl Google PaLM 2-Module entwickelt hat, die andere Dinge wie das Lesen medizinischer Scans erledigen, ist es nicht so nativ multimodal wie Gemini . Es bietet jedoch leichtgewichtige KI-Dienste für Unternehmen, die ihre eigenen KIs aufbauen möchten, indem sie auf die Arbeit zurückgreifen, die Google bereits geleistet hat, und zwar mithilfe der Google Vertex-Plattform, auf der Gemini ebenfalls aktiv ist.

Gemini und PaLM 2 scheinen keine Konkurrenten zu sein, und Gemini ist das Modell, mit dem die meisten Menschen interagieren, wenn sie KI-Produkte und -Hardware verwenden. Google DeepMind, entstanden aus der Fusion der beiden Vorgängerprojekte Brain Team und DeepMind, ist für beide verantwortlich. Google bezeichnet PaLM 2 und Gemini als zwei separate KI-Modelle mit unterschiedlichen Schwerpunkten, obwohl sie für bestimmte Aufgaben möglicherweise zusammenarbeiten.

Wo finde ich Google Gemini?

Wenn Sie die benutzerorientierte Version von Google Gemini verwenden möchten, besuchen Sie einfach die Gemini-Website oder laden Sie die Gemini-App auf Ihr Android-Telefon herunter. Auf dem Apple iPhone ist Gemini in der regulären Google-App verfügbar.

Wenn Sie als Entwickler daran interessiert sind, das zugrunde liegende KI-Modell für Ihre eigenen Projekte zu verwenden, schauen Sie auf der Gemini-Webseite von DeepMind vorbei und suchen Sie nach einer Anmeldeoption, um mehr zu erfahren, oder nach einer Anmeldeoption für Ihr Entwicklerkonto, damit Sie dies tun können Beginnen Sie mit dem Gemini Pro API-Kit. Anschließend können Sie damit beginnen, Gemini-Dienste in Ihre Apps zu integrieren und bestimmte Gemini-Modelle an Ihre Bedürfnisse anzupassen.

Beachten Sie, dass Gemini nur für die Verwendung durch Organisationen und Entwickler konzipiert ist, hauptsächlich über die Vertex-Plattform. Es richtet sich an Unternehmen, die maßgeschneiderte KI-Lösungen wünschen, die sie ihren Kunden dann über ihre eigenen Apps und Websites anbieten würden. Wenn Sie als Verbraucher Gemini erleben möchten, ist Google Bard oder verwandte Google-Dienste die beste Wahl.

Was kostet die Nutzung von Gemini?

Für Verbraucher ist die Nutzung der Basisversion von Gemini mit Pro 1.0 kostenlos. Um Zugriff auf Gemini Advanced mit Ultra 1.0 zu erhalten, müssen Sie den Google One AI Premium- Plan abonnieren . Es kostet 26 US-Dollar pro Monat oder 240 US-Dollar pro Jahr, wobei der jährliche Rabatt durchschnittlich 20 US-Dollar pro Monat beträgt.

Für Entwickler und Unternehmen, die das zugrunde liegende Gemini-KI-Modell verwenden, ist es derzeit schwierig, die spezifischen Gemini-Preise zu analysieren. Wir empfehlen einen Blick auf Google Vertex und die Preise für alle generativen KI-Dienste, die je nach Art des Inhalts und dem spezifischen Dienst, an dem ein Unternehmen interessiert ist, variieren.

Ist Google Gemini sicher?

DeepMind sagt, dass Gemini unter Berücksichtigung der Sicherheit ausgebildet wurde und verantwortungsvoll eingesetzt wird. Google äußert sich sehr vage darüber, was das bedeutet, aber es bedeutet wahrscheinlich, dass Zwillinge nichts allzu Unanständiges, Aufdringliches oder Illegales tun dürfen.

Weitgehend unberührt bleibt die Frage, wie Zwillinge unsere Inhalte, proprietären Arbeiten und Gespräche konsumieren und wie sie dazu genutzt werden könnten, Arbeitsplätze anzunehmen, auf unethische Weise Geld zu verdienen oder gefährdete Gruppen auszubeuten. Das sind Fragen, die zu allen LLMs aufgeworfen werden, und derzeit haben wir viel mehr Fragen als Antworten.

Wenn Sie sich mit Google Gemini unterhalten, sollten Sie bedenken, dass alle Ihre Wörter zum weiteren Training der KI verwendet werden können. Ihre Gespräche könnten auch von Google-Mitarbeitern geprüft und überprüft werden, die mit der Verbesserung des Produkts beauftragt sind, wie deutlich sichtbar beim ersten Öffnen von Gemini angezeigt wird. Achten Sie darauf, was Sie der KI mitteilen, und geben Sie keine privaten Informationen preis, die Sie an anderer Stelle im Internet nicht laut aussprechen würden.

Gemini ist jetzt im Forum: Beobachten Sie weiterhin Google

Google verfeinert seine KI-Modelle weiter und führt sie ein, um sich als Anlaufstelle für die professionelle KI-Entwicklung zu positionieren. Das Unternehmen kämpft gegen die starke Konkurrenz durch Quellen wie OpenAI. Gemini ist ein ehrgeiziger Einstieg, der darauf trainiert ist, von allem ein bisschen zu können, was ihn zu einem der leistungsstärksten Modelle überhaupt macht. Gemini steht jetzt an vorderster Front und im Mittelpunkt der KI-Bemühungen von Google, wobei sich das Branding nicht nur auf das zugrunde liegende KI-Modell bezieht, sondern auch auf die verbraucherorientierten Produkte, die in alle Arten von Google-Diensten integriert werden. Um mehr zu erfahren, schauen Sie sich unseren Artikel über LLMs an .