Google Gemini: KI mit Riesenhirn • Stefan Golling Konzepte

Im Rennen um KI-Fortschritte (und letztlich KI-Marktanteile) ist Google Gemini ein interessantes Angebot, vor allem wenn man die Abo-Version nutzt.

Und der Datenschutz? Sieht mittlerweile ganz OK aus. Der Schlüsselsatz aus den Gemini-AGB, gültig für Nutzer im EWR, inkl. Schweiz und UK (das „kostenpflichtig“ ignorieren, die Gratis-User sind inkludiert):

Wenn Sie kostenpflichtige Dienste nutzen, darunter beispielsweise das kostenpflichtige Kontingent für die Gemini API, verwendet Google Ihre Prompts (einschließlich zugehöriger Systemanweisungen, im Cache gespeicherter Inhalte und Dateien wie Bilder, Videos oder Dokumenten) oder die Antworten nicht, um die Produkte von Google zu verbessern.

Inhalt

Was ist Gemini?
Gemini in Chrome
Gemini: Sprachmodelle
Was ist Gemini Advanced?
Lohnt sich Gemini Advanced?
Google Gemini kann Search, vgl. SearchGPT
Was kann Gemini noch?
Gemini / Imagen / Nano Banana Bild-Beispiel
Nächster Test: Nano Banana
Und wenn wir aus diesem Foto mit Google Veo 2 und Google Veo 3 ein Video machen?
Google Flow und Veo 3? Ultra-Abo erforderlich
Gemini und Video-Chat
"Build apps with Gemini": Vibe Coding mit Google
Gemini-Beispiel: erweitertes OCR
Pferdefuß: Haarige Datenspeicherung
Datenschutz: Mannmannmann
Vergleich: Gemini vs. ChatGPT vs. Copilot
Fazit

Was ist Gemini?

Google Gemini¹ ist das KI-Angebot von Google – also ein Chatbot, bzw. eine Sammlung an KI-Tools zur Generierung von Inhalten.

Zur Nutzung braucht man zwingend ein Google-Konto, immerhin ist die Normal-Variante kostenfrei. Android-Nutzer kennen Gemini vor allem als KI-Assistenten vom Smartphone, also als App, während es für Business-User eher eine Alternative zum Microsoft Copilot ist.

Gemini ist eine umfangreiche KI-Tool-Sammlung, bei der man immer mehr spürt, dass Google ja auch Android anbietet: Bei Smartphone-KI ist Google weit vorn. Mit Gemini kann man heute schon live per Webcam „chatten“

Zum schnellen Ausprobieren ist das Google AI Studio ideal. Dort siehst du auch direkt, was Gemini unter der Haube bietet, nämlich:

1 Million Token als „Gedächtnis“ – das ist üppig und war konkurrenzlos, aber ChatGPT und Claude holen auf
Eine „Temperature“-Verstellung (= Kreativitäts-Level des Outputs, da hat jeder Anbieter eine andere Skala – bei Google von 0 bis 2, bei Anthropic von 0 bis 1)
Mit Structured Output ist der Output ein strukturiertes Datenformat wie JSON, um den Output an eine API zu übergeben (das geht mit anderen KIs auch „zu Fuß“ – der Standard hierfür ist „OpenAPI schema object“)
Code execution: Hier wird Python gebaut und ausgeführt, sehr cool.
Mit dem „Google AI Playground“ mischt Google auch beim „Vibe Coding“ mit – Google kann komplette Apps bauen. Bug-„arm“. Lauffähig. In der Cloud. Mit Datenbank, Storage, Login-Management, KI-Integration. Mehr dazu im Artikel zu Vibe Coding mit Gemini. Frag mich gern nach einer Demo, dann kann ich dir was zeigen.
Function calling: Wie bei anderen KIs auch ruft man dort externe Tools auf (= API)
Interessant sind vor allem „Grounding with Google Search“ und „URL Context“
Bei der Bildgenerierung ist Gemini auch sehr stark

Code Execution ist interessant, da der Code validiert wird:

Gemini programmiert also zuerst in Python, führt den Code in einer Sandbox aus, sieht die Fehler und behebt sie (im Idealfall). Du bekommst erst dann ein Ergebnis angezeigt, wenn der Code fehlerfrei durchläuft. Was du allerdings dann noch machen musst, ist den Code in dein eigenes Projekt zu übertragen. Eine Coding-Vollintegration wie der Github Copilot o.ä. ist das nicht. Außerdem klappt der Trick nur mit Python; du kannst dir Code zwar von Gemini in z.B. JavaScript umprogrammieren lassen, aber der Code wird nicht „in echt“ getestet – sondern nur simuliert. In einem ersten Test war das Ergebnis sehr gut, Ausprobieren lohnt sich!

Gemini in Chrome

Du nutzt den Browser Chrome? Dann kannst du in der Adresszeile direkt einen Chat mit Gemini starten. Gebe zum chatten mit Gemini einfach „@gemini“ plus deinen Prompt ein und drücke auf Enter. Klappt natürlich nur, wenn du in Chrome mit deinem Google-Account eingeloggt bist.

Gemini: Sprachmodelle

Als Sprachmodell (LLM) wurde das hauseigene Gemini 1.5 Pro benutzt, mittlerweile waren die Versionen bei Gemini 2.5 Flash und 2.5 Pro angekommen, aktuell ist das Maximimum Gemini 3.1 Pro. Die Entwicklungen sind rasant, welche Version gerade – zu welchen Kosten für dich – gerade aktuell ist, erfährst du beim Anbieter. Das gilt für alle KI-Anbieter.

Es „spricht“ sehr gut Deutsch, und das meine ich wörtlich: Bereits Gemini 2.5 kann hören und sprechen – stelle dir sowas wie Alexa oder Siri vor, nur in besser. Manche Formulierungen sind jedoch immer noch schlecht, wie „Gib mir einen kleinen Moment dafür“, das ist kein gutes Deutsch, das ist wörtlich übersetzes Englisch (Give me a moment).

Google nutzt schon lange KI, u.a. Bard. KI spielt auch bei der Google Suche, bei Google Ads oder YouTube eine Rolle, allerdings mehr unter der Haube und für den Anwender bzw. Werbetreibenden kaum sichtbar.

Gemini 2.5 Flash und Pro zogen endlich mit dem Wettbewerb gleich: Beide haben mit „Deep Think“ ein „Reasoning“-Modul eingebaut, was die User von OpenAI und Anthropic (oder Deep Seek) schon lange kennen, nämlich einen „Ich haue die Antwort nicht direkt raus, ich lese noch mal drüber“ Modus. Ich benzutze diesen Modus (bei Anthropic) nur noch.

Der „heiße Scheiß“ in Form von Browser-steuernden Agenten geht jetzt auch².

Neben den KI-Systemen in „Vollfettstufe“ arbeitet Google auch an „Mini-KIs“ wie Gemma, die dann so klein sind, dass sie – Stichwort Android und Chrome – lokal auf dem Computer bzw. Smartphone laufen können. Es sind eher „Fachidioten“ (nicht böse gemeint), also keine Universal-Alleskönner. Denke an eine Reisekostenabrechnungsapp, die ein Foto deiner Quittung „scannt“ und die Daten automatisch in die App einträgt – auf dem Device, also nicht auf dem Server.

Was ist Gemini Advanced?

Gemini Advanced ist die „Profi“-Variante von Google Gemini. Um es zu nutzen, musst du das „Google One AI Premium Abo“ (mittlerweile umbebannt in „AI Pro“) abschließen, das € 21,99 im Monat kostet. Nur dann ist Gemini auch für Gmail, Docs etc. inklusive – und im Ideallfall hat man noch ein Abo von Google Workspace, damit man Gemini (im Team) voll nutzen kann. Bei Google Docs ist man nicht auf Gemini angewiesen, es gibt massenweise KI-Add-ons (= Plug-ins) von Fremdanbietern.+

Mit „AI Ultra“ für 250 Dollar im Monat springt Google auf den Zug der „teuren“ Abos auf. Für Heavy User kann sich das durchaus lohnen, speziell wenn man mit Coding rumspielt. Mit Coding (und erst recht Video) kann man bei einer Token-basierten Abrechnung problemlos 200 Dollar am Tag für die KI-Nutzung ausgeben, insofern sind 250 Dollar harmlos.

Lohnt sich Gemini Advanced?

Gemini Advanced bietet ein Kontextfenster von 1 Million Token (teils bis 2 Mio. Token), während in der Free-Version immerhin noch 128.000 Token drin sind – wie bei GPT-4 Turbo von Open AI. In die Nähe kommte der Enterprise-Plan von Claude (Anthropic) mit 500.000 Token. Viele Token bieten mittlerweile auch Open AI, Meta und andere.
Vor allem aber ist Advanced voll in die Google-Suite integriert, also Mail und Docs – und das ist spannend. Außerdem muss man mindestens die Advanced-Version abonnieren, um „Gems“ nutzen zu können. „Gem“, also auf Deutsch Juwel, angelehnt das Sternchen im Gemini-Logo, sind die GPTs von Gemini. Wie mit den GPTs von ChatGPT oder mit den HuggingChat Assistants, oder wie mit den meisten KI-Tools, kannst du vorgepromptete Assistenten bauen. Bei den Gems gibt es on Top noch Helferlein, um diese Prompts in strukturierter Form zu generieren. Das kennt man unter anderem auch von Anthropic. Allerdings gilt die Warnung: Lange Prompts verbessern nicht unbedingt die Endergebnisse, denn sie fressen Tokens und damit „Arbeitsspeicher“.

Gemini Advanced hat dann wieder Imagen mit drin, die skandalumwitterte KI-Bildergenerierung von Google, mit Menschengenerierung. Ich würde sie nicht nutzen, da es qualitativ hochwertigere und rechtssichere Alternativen gibt, oder auch Copyrights-sind-mir-Wurscht-Angebote mit deulich kreativeren Ergebnissen (Midjourney, Flux etc.).

Zurück zu den Tokens: Die 1-2 Mio. Token sind absolut superkrass. Die Tokenmenge kann man vergleichen mit dem Kurzzeitgedächtnis: Alles, was man reinfüttert, kann sich die KI aktiv merken – und damit arbeiten. Bei anderen KIs kennt man aufgrund kurzer Kontextfenster Probleme bei längeren Chats: Die KI weiß nicht mehr, was am Anfang war und verhaspelt sich bzw. bekommt Halluzinationen.

Laut Google³ entsprechen die 1 Mio. Tokens 1 Stunden Video bzw. 700.000 Wörter Text. Google braucht das evtl. selbst, um bspw. bessere YouTube-Untertitel / Video-Zusammenfassungen zu erzeugen. Du kannst es verwenden, um komplexe Tasks zu bearbeiten.

Stelle dir einen Chatbot vor, den du mit der gesamten Bedienungsanleitung eines Autos fütterst. Da alle Inhalte im Kontextfenster Platz haben, kann die KI alle Fragen beantworten. Und jetzt stelle dir das in Kombination mit Spracherkennung vor. Und dann siehst du, wo die Reise hingeht. Im Prinzip kann man sich dann teilweise RAG oder das Finetuning von Sprachmodellen sparen. Für RAG, also vereinfacht gesagt „chatten mit meinen Dokumenten“ kannst du mit Kotaemon rumspielen. Einfach out-of-the-box nutzbar ist das allerdings nicht, da du zuallererst einen API-Key einer KI brauchst. EInfacher klappt das mit Notebook LM von Google, Acrobat PDF (allerdings nur für das Dokument, das du offen hast), mit den „Projects“ in Claude, im Backend von OpenAI und und und.

Zusätzlich hat auch Google RAG-Angebote eingebaut. Zitat: „Vertex AI RAG Engine ist ein Datenframework für die Entwicklung von Anwendungen, die kontexterweiterte Large Language Models (LLMs) nutzen. Die Kontexterweiterung erfolgt, wenn Sie ein LLM auf Ihre Daten anwenden. Hier wird Retrieval Augmented Generation (RAG) implementiert.“
Klicke hier: https://console.cloud.google.com/vertex-ai/rag/corpus

Google Gemini kann Search, vgl. SearchGPT

SearchGPT ist als „Suchmaschine“ von ChatGPT gedacht, um Google Konkurrenz zu machen.

Hat Google sowas auch? Ja klar, die wollen sich ja nicht das Geschäft kaputt machen lassen. Deshalb zeigt die Google-Suche teils „KI-generierte“ Suchergebnis-Zusammenfassungen an, wenn man etwas bei Google sucht.

Google Gemini hat zudem eine Funktion, die wie SearchGPT funktioniert, also eine Mischung aus Suchmaschine und KI. Das funktioniert sogar ganz gut, man muss es nur gut prompten.

Gemini kann nämlich im Internet suchen, hat aber nicht immer Lust drauf. Deshalb muss man Quellenangaben anfordern, und gebenenfalls einen „Self Refine“ Durchgang einstellen.

Beispiel:

Die Gemini KI soll mir eine Liste von 5 Hugging Face Spaces erstellen, die mit KI-Videos zu tun haben. Das ist eine gute Aufgabe. Die Google-Suche würde hier auch funktionieren, ist aber unübersichtlicher.
Damit es funktioniert, bestelle ich bei der KI: Bitte liefere Bild und URL mit. Dadurch bekommt man gleich einen Eindruck.
Nich bestellt, aber super: Eine kurze Zusammenfassung, um was es in dem Space geht. Das ist ein 1a Feature, denn viele Spaces sind absolut rätselhaft.

Was kann Gemini noch?

Gemini gibt stets 3 Antwortmöglichkeiten zur Auswahl. Das ist ganz angenehm.
KI-Chatbot-Jobs: Wie man es so kennt. In der Regel werden am Ende von Antworten „Hilfreiche Ressourcen“ angegeben, also Links mit Quellen – du kennst das von Copilot. Außerdem kann Gemini googlen. Wenn man sich eine Liste von z.B. Dienstleistern erstellen lassen will, klappt das hervorragend – echte Namen, echte Handynummern etc. Gemini sagt zwar „Die Handynummern wurden aus Datenschutzgründen anonymisiert“ – das stimmt aber nicht (immer). In meinem Test waren die Handynummern einmal gut, danach nicht mehr.
Die Antwortlänge ist übrigens übel kurz: Sich mal eben eine Präsentation mit 20 Charts basteln lassen klappt nicht, da kann schon mal nach 6 Charts Schluss sein.
Bilder verstehen: Du kannst Bilder / Grafiken / Charts hochladen und dann einen Prompt formulieren, also ein aufgebohrtes Google Lens. Dazu gibt’s gleich ein Beispiel. Bilder generieren geht, mit dem eingebauten „Imagen“ (mittlerweile ibn Version 4) von Google! Bilder googlen (u.a. von Freepik) & und in Ergebnisse einbauen geht aber. Eine KI zum Bilder generieren hat Google (Imagen) natürlich (bisher aufgefallen durch schlechte Ergebnisse, mittlerweile besser), und in Workspace ist das Tool nutzbar.
Du kannst auch das Mikro anmachen: Gemini versteht Audio – oder kann dir nervtötend lange Podcastes zusammenfassen. Mit Veo 3 gelingt dann die Audiogenerierung.

Gemini / Imagen / Nano Banana Bild-Beispiel

Ich habe Gemini die Aufgabe gegeben, ein Mocktail-Rezept zu erzeugen. Mit Spezi. Und mit Bild.

Das generierte Rezept basiert auf Spezi, O-Saft, Grenadine, Limittensaft und Minzstängel – und es ist Quatsch, denn man soll zuerst Spezi ins Glas geben und am Ende den Zucker.

Die eigentliche Frage ist jedoch: Passt das Bild – oben mit Imagen erzeugt? Nein. Spezi plus O-Saft plus Grenadine müsste ein dunkelbraunes Getränk ergeben. Das Bild zeigt das nicht. Ein „Reasoning“ hat nicht stattgefunden. Die Deko im generierten Rezept und Bild stimmt aber.

Nächster Test: Nano Banana

Nano Banana von Google ist ein Bildgenerierungs-Modell. Eigentlich heißt es Gemini 2.5 Flash Image (Preview), es gehört also zur Gemini 2.5 Familie.

Das Bild von Nano Banana ist wesentlich besser. Anaylisieren wir es mal:

Unten links ist ein Wasserzeichen, nämlich der Gemini-Diamant
Die Standard-Outputgröße ist 1024×1024 Pixel (du kannst zwar prompten: Erhöhe die Auflösung auf 4k, aber das funktioniert nicht)
Das alles sieht ziemlich realistisch aus, mit dem ülichen KI-Uncanny-Valley-Effekt, und mit einer eigenartigen Fake-Spezi-Flasche im Coke-Bottle-Design. Das Ergebnis ist aus meiner Sicht nicht gewerblich nutzbar!
Und nun?

Nano Banana kann Inpainting / Outpainting

Der Prompt „Entferne die Flasche aus dem Bild“ lässt die Flasche verschwinden.

Das ist ein wenig wie „Photoshop light mit Chatfunktion“. Das klappt so ähnlich auch bei ChatGPT.

Jetzt wollen wir mal sehen, ob wir Leben reinbringen können.

Prompt: Ändere das Setting: Das Getränk soll auf einem Gartentisch stehen, bei einer sommerlichen Gartenparty mit vielen Gästen.

Und siehe da: Es funktioniert. Der wesentliche Bildinhalt – das Glas – bleibt fast erhalten. Wenn du genau hinsiehst, erkennst du dass der Löffel im Glas anders steht. Das bedeutet, dass Nano Banana das Glas nicht wiederverwendet hat, sondern neu generiert hat. Das ist für den Produktiveinsatz frustrierend.

Und wenn wir aus diesem Foto mit Google Veo 2 und Google Veo 3 ein Video machen?

Dann kommt das heraus, in 16:9, 24 fps, 720p, in der üblichen Länge von 8 Sekunden:

Video 1 mit Veo 2: Nicht schlecht! Der Bildausschnitt ist nicht ideal, die Hand kommt ein wenig überraschend ins Bild, und der Drink wird nicht „gemixt“ sondern „gemischt“. Aber insgesamt ist das vielversprechend – die Leute im Hintergrund verhalten sich ganz gut, die Bewegungen sind OK, es gibt keine Finger zuviel oder Ähnliches.

Video 2: Mit Google Geminie Veo 3 Fast. Prompt: A man mixes the ice tea drink in the image. Afterwards a thunderstorm occurs.

Ergebnis: Der Look ist ein wenig künstlich.

Rezept

Zutaten

200 ml Spezi

50 ml frisch gepresster Orangensaft

15 ml Grenadine

15 ml Limettensaft

1 Teelöffel Zucker

Eiswürfel

Orange-Scheibe zur Dekoration

Minze-Stängel zur Dekoration

Zubereitung:

Füllen Sie ein hohes Glas mit Eiswürfeln.
Gießen Sie das Spezi, den Orangensaft, die Grenadine und den Limettensaft in das Glas.
Rühren Sie die Zutaten vorsichtig um, bis sie gut vermischt sind.
Fügen Sie den Zucker hinzu und rühren Sie erneut um, bis er sich vollständig aufgelöst hat.
Garnieren Sie das Getränk mit einer Orange-Scheibe und einem Minze-Stängel.

Tipp:

Sie können auch andere Früchte wie Erdbeeren oder Himbeeren verwenden, um das Mocktail zu verfeinern.

Genießen Sie Ihren Spezi-Mocktail!

Google Flow und Veo 3? Ultra-Abo erforderlich

Ein Google AI Pro oder Ultra Abo braucht man u.a., um Google Flow vollständig zu nutzen – nur dann hast du Zugriff auf die (gehypte) Video-Generierung mit Veo 3, das nicht nur Text-to-Video kann, sondern auch Dialoge, Hintergrundgeräusche und SFX.
Veo 3 ist besser als das ohnehin schon gute Veo 2 (das kannst du ohne Abo im AI Studio testen), kann aber ein paar Sachen von Veo 2 noch nicht (u.a. Camera Control).
Wieso sieht man dann schon so viele Videos von Veo 3? Wahrscheinlich weil Google handverlesenen Video-AI-Influencern unlimitierten Vorab-Zugang gibt. Die Videos sind also von Profis, die das Thema KI-Video teils seit Jahren (!) beruflich machen. Solche Ergebnisse wie auf Flow TV (der Showcase-Plattform) wirst du Anhieb nicht hinbekommen, allerdings kannst du dir den Prompt anzeigen lassen.
Wenn du in solche Vorab-Programme reinwillst, solltest du dich auf Discord tummeln, u.a. im #Flow Channel von Google Labs.

Gemini und Video-Chat

Gemini kann mit dem Modell 2.5 Flash Preview Native Audio Dialog Sprache und Video erkennen, aber auch einen geteilten Screen.

In einem kleinen Test hielt ich einen gelben Textmarker in die Kamera. Dieser wurde erst erkannt, bis sich das System darauf besann, dass es keine Bilder erkennen kann. Knickknack! Glitch in der Matrix. Also: Google kann’s.

Die Aufgabe: Erstelle ein Gedich in einem Versmaß mit 10 Hebungen. Das Ergenis, live im Dialog von Gemini vorgelesen ist okay:

„Ein gelber Marker, strahlend wie das Sonnenlicht, markiert wichtige Worte, verblasst niemals, zerbricht nicht. Auf weißem Papier zieht er leuchtend seine Spur, erinnert immer an das, was wichtig ist, für immerdar. Ein treuer Begleiter, unverzichtbar im Geiste, macht das Lernen leichter, wird zum hellsten Meister.“

Über Screen-Sharing kannst du deinen Screen mit Gemini teilen.

Beispiel: Zeig Gemini ein Foto, sprich ins Mikro mit dem Wunsch, dir einen Blog-Artikel daraus schreiben zu lassen. Funktioniert. Der Standard-Output ist im Markup-Format.

Der praktische Nutzen aus Google-Android-Smartphone-Sicht ist ein anderer: Das Smartphone (oder die KI-Brille) kann die Umgebung analysieren, und der User hat einen Ratgeber zur Seite. Solche Beispiele zeigt Google ja auch in der Fernsehwerbung für Gemini.

„Build apps with Gemini“: Vibe Coding mit Google

Kleiner Test, ohne große Vorgaben:

Build a „Marketing executive as a service“ agentic app for SME businesses.

In sehr kurzer Zeit baut Google die App mittels Typescript inklusive aller Dateien, findet Fehler und behebt sie. Das Ergebnis kann ich in Google Drive speichern oder als .zip-Datei exportieren.

Anschließend kann ich mit dem Code natürlich chatten, also Änderungswünsche durchgeben.

Die App sieht dann so aus:

Was kann die App? Sie ist im Grunde ein Prompt-Template, um eine KI zu füttern. Die App kann also nicht viel. Oder doch?

Am Ende der Abfrage spuckt mir das Tool eine Marketing Strategy aus, mit:

Core Messaging
Target Audience Persona
Campaign Ideas
Und am Ende wird es, wie gewünscht, agentisch: Ich kann mir Marketing Content generieren lassen

Die Ergebnisse sind nicht so gut um sie hier zu posten, aber für basically 5 Minuten Zeitinvest ist das schon ziemlich gut.

Allerdings zeigt es mal wieder: Wenn du dir Software bauen lassen willst, musst du genau wissen, was sie können werden soll. Wenn deine „Bestellung“ bei der KI oberflächlich ist, kommen oberflächliche Sachen raus.

Gemini-Beispiel: erweitertes OCR

Ich habe bei Gemini folgendes Chart von mir hochgeladen (zum Thema KI-Beratung). Der Prompt: „Erstelle aus dem Bild eine Tabelle“. Der Task ist also klar:

OCR: Text aus der Grafik extrahieren und verschriftlichen
Verständnis: Verstehen, dass es sich im einen mehrstufigen Prozess handelt
Ausgabe: Erstellung einer Tabelle

Ergebnis: Gemini erstellt daraus diese Tabelle (Vorschlag 3)

Auffälligkeiten:
OCR klappt 100 % perfekt
Zusätzlich wurde overperformt: Die Phasen des Charts wurden um eine Beschreibung ergänzt. Die Inhalte sind korrekt, strenggenommen aber redundantes Bla-Bla.

Tabelle: KI-Beratung auf die Reihenfolge achten

Phase	Beschreibung
User Stories entwickeln (interne Nutzer, externe Kunden)	In dieser Phase werden die Anforderungen der Nutzer an die KI-Lösung ermittelt. Dazu werden User Stories erstellt, die die gewünschten Funktionen und Abläufe beschreiben.
KI-Tools auswählen (Fertiglösungen, Baukastensysteme)	In dieser Phase werden die verfügbaren KI-Tools auf ihre Eignung für die Umsetzung der User Stories bewertet. Dabei werden verschiedene Kriterien berücksichtigt, z. B. die Funktionalität, die Benutzerfreundlichkeit und die Kosten.
KI-Tools evaluieren (mit Key-Usern/-Stakeholdern)	In dieser Phase werden die ausgewählten KI-Tools mit den Key-Usern und Stakeholdern evaluiert. Dazu werden die Tools in der Praxis getestet und Feedback eingeholt.
Kosten & Nutzen bewerten (Produktivität, Qualität, Finance)	In dieser Phase werden die Kosten und der Nutzen der KI-Lösung bewertet. Dazu werden die erwarteten Einsparungen und Verbesserungen quantifiziert.
Roll-out & Optimierung (Schulungen, Verstetigung)	In dieser Phase wird die KI-Lösung eingeführt und optimiert. Dazu werden die Mitarbeiter geschult und die Lösung kontinuierlich weiterentwickelt.

Außerdem schüttet mich Gemini noch mit Text voll:

Zusätzliche Informationen:
Die Tabelle kann verwendet werden, um den Ablauf der KI-Beratung zu planen und zu verfolgen. Die einzelnen Phasen der KI-Beratung können je nach Projekt unterschiedlich sein. Es ist wichtig, dass alle Beteiligten an dem Projekt an der KI-Beratung beteiligt sind.
Beispiel:
Nehmen wir an, Sie möchten eine KI-Lösung für die Kundenbetreuung in Ihrem Unternehmen einsetzen. In der Phase "User Stories entwickeln" würden Sie die Anforderungen Ihrer Kunden an die KI-Lösung ermitteln. Dazu würden Sie User Stories erstellen, die die gewünschten Funktionen und Abläufe beschreiben.
In der Phase "KI-Tools auswählen" würden Sie die verfügbaren KI-Tools auf ihre Eignung für die Umsetzung der User Stories bewerten. Dabei würden Sie verschiedene Kriterien berücksichtigen, z. B. die Funktionalität, die Benutzerfreundlichkeit und die Kosten.
In der Phase "KI-Tools evaluieren" würden Sie die ausgewählten KI-Tools mit den Key-Usern und Stakeholdern evaluieren. Dazu würden Sie die Tools in der Praxis testen und Feedback einholen.
In der Phase "Kosten & Nutzen bewerten" würden Sie die Kosten und den Nutzen der KI-Lösung bewerten. Dazu würden Sie die erwarteten Einsparungen und Verbesserungen quantifizieren.
In der Phase "Roll-out & Optimierung" würden Sie die KI-Lösung einführen und optimieren. Dazu würden Sie die Mitarbeiter schulen und die Lösung kontinuierlich weiterentwickeln.
Ich hoffe, diese Informationen sind hilfreich.

Zusätzlich gibt es noch Finetuning-Optionen:

Und Sharing-Optionen, womit der Workflow ins Gmail- und Docs-Universum auch ohne Abo klappt. Oben an der Tabelle gab es noch den Extrabutton „In Google Sheets“ exportieren. Wenn man unten auf „In Docs exportieren“ klickt, wird ein Textdokument erzeugt. Unschöner Bug: Generierte Bilder / Grafiken werden nicht rübergebeamt.

Spannend ist auch der „Antwort in der Google Suche überprüfen lassen“ Button. Der tut es allerdings nicht immer. Wenn es klappt, werden u.a. Deeplinks zur Google-Suche generiert – oder generierte „Copy & Paste“ Textpassagen werden gegoogelt, womit ein kleiner Plagiatsscan möglich ist.

Pferdefuß: Haarige Datenspeicherung

Google Gemini ist nur mit Google-Login nutzbar, und meist bleibt man im Browser – also meistens Chrome – die ganze Zeit eingeloggt.

Dumme Sache, denn Gemini speichert die Daten bzw. Chats gut zugänglich via https://myactivity.google.com/product/gemini. Jeder, der am Rechner sitzt, kann sich die generierten Chatverläufe ansehen, wenn sich der Hauptnutzer nicht vorher ausgeloggt hat. Das ist vor allem blöd, wenn sich Kollegen den gleichen Rechner teilen (z.B. Schichtdienst), und dann Person A sich Bewerbungen generieren lässt und Person B sich das anschaut.

So sieht das dann aus:

Datenschutz: Mannmannmann

Google nutzt deine Inputs und die generierten Daten, um damit die eigenen KI-Modelle zu trainieren. Das ist nicht ganz ideal, wenn man Geschäftsgeheimnisse einfüttert und diese dann im Big Brain landen.

Außerdem dürfen Google-Mitarbeiter die Chats lesen.

Geben Sie in Ihren Unterhaltungen keine vertraulichen Informationen und keine Daten an, die Prüfer*innen nicht sehen sollen
Gemini-Apps-Hilfe

Üble Sache. Personenbezogene Daten sollten also auf keinen Fall als Input genutzt werden.

Sich also eine Antwort auf eine G-Mail generieren zu lassen, also, ich weiß nicht. Ich hätte da Bauchschmerzen.

Vergleich: Gemini vs. ChatGPT vs. Copilot

Die „großen Drei“ der generativen KI-Angebote sind vergleichbar, und dann wieder nicht.

ChatGPT: Die KI von Open AI entwickelt sich in Richtung „Omni“, und ist speziell in der Team-Variante interessant für Teams – um KI-Mini-Apps mit Kollegen zu teilen.
Microsoft Copilot: Hier ist der Vorteil die Integration in MS Office, Outlook, Teams etc. Für den Einsatz in Unternehmen gibt es spannende Use Cases. Außerdem hat Microsoft ja noch die „Power Platform“ zur Automatisierung von Bürogedöns bzw. Geschäftsprozessen, inklusive SharePoint etc.
Google Gemini: Wenn man im Unternehmen ohnehin die Google Cloud nutzt, also für Dokumente, Termine, Cloud, whatever, dann integriert sich Gemini wunderbar rein. Für den Anfang auch ohne Abo. Da der Datenschutz allerdings sehr eigenwillig ist, wäre ich beim Einsatz eher zurückhaltend.

Auf LinkedIn folgen

Über den Autor

Stefan Golling, Köln. Seit 2011 unterstütze ich freiberuflich Unternehmen bzw. Agenturen mit kreativen Ideen, Konzepten und (textlichen) Umsetzungen rund ums (Online-)Marketing. Vorher: 1998 mit Radiowerbung in Stuttgart gestartet, 2000 als Junior-Werbetexter zu Publicis München, 2001 Counterpart Köln, 2002 als Copywriter zu Red Cell Düsseldorf (heißt heute Scholz & Friends), dort ab 2007 Creative Director.

Fazit

Google Gemini ist eine spannende KI – wenn man die Advanced-Version abonniert und ohnehin viel mit Google-Produkten arbeitet. Und wenn einem Datenschutz wurschtegal ist.

Wenn man mit der Firma voll auf Microsoft setzt, wird man eher mit Copilot & Power Automate glücklich werden – oder mit Chat GPT als Teams-Version.

Für Apps, also wenn es auf eine API ankommt, sind m.E. ChatGPT / OpenAi bzw. Anthropic leicht vorne, aber natürlich hat auch Google eine API für Gemini. Wenn man da wirklich tief einsteigen will, muss man tief in die Kostenstrukturen einsteigen. Die „großen“ Sprachmodelle sind ja tendenziell sehr fett („Mixture of Experts“, also Monsterstruck-SUVs), aber für manche Aufgaben wäre ein „Fachidiot“ besser, wie u.a. fürs Coding das fette, aber spezialisierte „Codestral“ von Mistral oder auch was ganz Schlankes für harmlose Aufgaben.

Und wo wir schon dabei sind: Nicht vergessen darf man die (teils) Open Source LLMs von Meta (LLama) und Mistral. Es bleibt also spannend.