Prompting aufgeschlüsselt: Vieles ist unsichtbar

Prompting, dargestellt als Illustration

Für den Otto-Normal-User ist „Prompting“ bei KI-Systemen wie ChatGPT, Claude, Gemini, Copilot etc. eine einfache Geschichte: Man versucht, der KI sinnvolle Outputs zu entlocken, in dem man den „Arbeitsauftrag“ gut formuliert.

Inhalt

Das ist Prompting: Faktor „Zufall“ reduzieren

Der Unterschied zwischen Prompt und Prompting: Einen Prompt – also eine „Textaufgabe“ „einfach so“ in eine KI eintippen kann jeder. Das Ergebnis ist dann mehr oder weniger zufriedenstellend, und vor allem sind die Ergebnisse wenig reproduzierbar. Wir kennen das alle.

Mit Prompting hingegen versucht man mittels systematischem Vorgehen, der KI jedesmal beim – im Idealfall – ersten Versuch einen nutzbaren Output abzuringen. Gepromptete Prompts sind deshalb Handlungsanweisungen – es sind Briefings.

Wer beruflich Briefings schreibt oder (agiles) Projektmanagement betreibt oder im öffentlichen Dienst Ausschreibungen gestaltet, weiß, dass man vor dem Prompt etwas sehr Wichtiges braucht:
Was sind meine „Akzeptanzkriterien“ bzw. was ist die „Definition of Done“ bzw. wie sieht mein Bewertungsbogen aus? Nur mit diesem Bewertungskatalog kann man überprüfen, ob der Prompt das gewünschte Ergebnis geliefert hat. Diesen Bewertungsbogen kannst du auch in den Prompt einbauen, damit die KI sich selbst bewerten soll.

Mit Mitteln des Prompt Engineering versucht man nun, mit wissenschaftlichem Ehrgeiz reproduzierbare Prompt-Systematiken zu entwickeln – diese Prompts kann man dann für KI-Agenten verwenden und an Teammitglieder weitergeben.

Das Spiel darf man dann allerdings mindestens jährlich wiederholen, da manche KI-Anbieter manche Sprachmodelle schon nach einem Jahr wieder abschalten. Dann muss man ein neues Sprachmodell suchen, in der Regel das Nachfolgemodell. Diese Art Zwangsupdates muss man für sich einpreisen: „Wir machen ein KI-Projekt, und wenn es läuft, dann läuft es“ funktioniert nicht. Die Wahrheit ist: Es ist immer Nacharbeit erfordlich. Plane also Budgets ein (Zeit, Geld).

Profis betreiben Benchmarking

Prompt Engineering als Anwender in einem Unternehmen ist relativ easy, weil man die KI-Tools nutzen muss, die der Arbeitgeber einem zur Verfügung stellt. Du hast also keine Auswahl.

Als KI-Berater / CIO / Admin / Head of AI oder was auch immer hat man natürlich die Auswahl aus dem kompletten Angebot am Markt. Hier ist die Herausforderung, das beste Sprachmodell für den jeweiligen Zweck auszuwählen – denn die KIs sind alle unterschiedlich schnell, teuer und leistungsfähig. Die Kunst ist es, das Modell mit dem besten Preis-Leistungs-Verhältnis für die jeweilige Aufgabe auszuchen.

In den API-Dashboards der KI-Anbieter lassen sich Prompts und Sprachmodelle miteinander vergleichen. A/B-Tests sind da ratsam.

„Contexting“ wird immer wichtiger

Was wir auch alle schon mal erlebt haben ist, wenn die KI am Laufe eines Chats „vergesslich“ wird und Infos vom Anfang nicht mehr weiß. Das passiert, wenn das Kontextfenter (Token Window) vollläuft – also das „Kurzzeitgedächtnis“. Das „Token Window“ ist unterschiedlich groß: Früher waren 8.192 Token üblich, das sind in etwa zwei längere Texte – Input und Output zusammengefasst. Damit ist ein Chatten mit dem Output nicht sinnvoll möglich. Mittlerweile liegen wir bei 32.000, 64.000, 200.000 oder 1 Million Token, je nach Anbieter, Sprachmodell, Preis und Kundenstatus.

Das Context Window bekommt man sehr schnell voll mit:

  • Langen Textquellen und Dateien (Bilder, PDFs etc.)
  • Der Nutzung von Tools wie Websuche (Websites auslesen kann den Speicher schnell füllen, da Websites viel überflüssigen Text enthalten können)
  • Langen Chatverläufen
  • Einer Kombination aus allem. Beispiel: Du gibt als Quelle ein großes PDF ein und lässt die KI dazu Infos im Internet suchen, und dann wird noch ein weiteres Tool aufgerufen

Wenn man solche Aufgaben hat, ist die Wahl der passenden KI – und des Wissensmanagement-Ansatzes – sehr wichtig.

Wer eine „Knowledge Base“ hat, also Info-Dokumente, die immer gleich sind, braucht eine KI mit „Wissensspeicher“-Fähigkeiten wie Claude oder ChatGPT. Claude Sonnet 4.5 hat eine „Gedächtnis-Aufräum-Funktion“ und versucht, nur die unwichtigen Teile eines Chats zu vergessen. Zudem lässt sich ein Wissensspeicher anlegen, auf den das ganze Team zugreifen kann. Dieses Wissen kann von der KI laufend upgedatet werden! Wie das im Detail funktioniert, kannst du im Claude Cookbook zum Thema „Memory“ nachlesen

Google Gemini, der Kontextfensterchampion, braucht das nicht in dem Ausmaß. Und auch der Microsoft Copilot ist bei Dokumenten entspannter unterwegs – du kannst problemlos eine Powerpoint mit 130 MB einkippen, woran andere Tools scheitern.

Für größere Projekte ist dann ein große (Vektor-)Datenbank sinnvoller. Auch ist es möglich, eine KI mit dem gewünschten Wissen zu trainieren (das geht bei OpenAI relativ einfach), was aber einen festren Datenspeicher nicht ersetzt.

Laien-Prompts sind kurz, Profi-Prompts sind länger

Viele Leute nutzen KI-Systeme nach Gutsherrenart und schreiben Prompts im kurzen Befehlston: „Schreibe mir ein Marketing-Konzept für Firma XY“. Da der Input keine klaren Vorgaben enthält, bekommst du nur Allgemeinplätze raus.

Manche Leute sind solche High-Level-Auftragserteilungen gewohnt, weil sie solche Aufgaben sonst an schlaue Menschen bzw. erfahrene Dienstleister vergeben – die mit kurzen Ansagen super (oder zähneknirschend) klarkommen. Die KI aber nicht, die ist ein Praktikant am ersten Tag. Superfit, aber ohne Backgroundwissen zu deiner Situation.

Besser ist es, präzise Vorgaben zu machen, wie:

„Schreibe ein Marketingkonzept für Firma XY, mit den folgenden Vorgaben… und Infos aus diesen Dokumenten… bereite Aufbau und Textmengen so auf, dass ich es in Powerpoint-Folien übertragen kann [bzw. baue daraus eine PowerPoint – Stichwort Copilot 365], nutze Duzen, lese über das Ergebnis drüber, bewerte es auf einer Skala von 1 bis 5 und optimiere es dann“ – und aktiviere a) die Web-Suche (eingstellt auf z.B. deine Website) und b) Reasoning (also nachdenken); mit der letzten Vorgabe im Prompt bringst du das System ans intensive Reflektieren des Outputs.

Prompting: Markup und JSON helfen, müssen aber nicht sein

Professionelles Prompting ist struktiert, und KIs können sehr gut mit strukturiertem Input umgehen. Die „Lieblingssprachen“ der meisten KIs sind Markup und JSON – wirklich nötig sind sie für den Hausgebrauch nicht. Wichtiger ist der sinnvolle Aufbau. Wer Markup nicht so gut kennt: „#“ ist wie bei HTML die H1, also das erste Überschrifts-Level, „##“ ist dann H2, etc. Easy. In der Markup-Welt ist #Aufgabe kein Hashtag, sondern eine Überschrift. Mit dem Rautenzeichen arbeiten ist fürs eigene Denken ganz gut: Du wirst dazu gezwungen, einen Prompt logisch aufzubauen.

Das Format JSON ist deutlich strukturierter; KIs beherrschen es sehr gut im Input und Output.

Hier ist ein ganz grobes Beispiel-Template im Markup-Format. Die doppelten geschweiften Klammern sind Platzhalter für Input, wie sie bei Anthropic verwendet werden.

Was du siehst ist eine Art Briefing, wie man es auch einem (neuen) Mitarbeiter geben könnte:

  • Rolle
  • Aufgabe
  • Input
  • Vorgehensweise

Für ein gutes Ergebnis muss das Prompting nicht so detailliert strukturiert sein wie im Beispiel, aber es ist ein Denkanstoß. Manche Leute schreiben in ihr „Briefing“ intuitiv die wichtigen Infos rein und hassen Templates, manche Leute arbeiten lieber mit Templates und sind mit „Free Form“ überfordert. Die KIs verstehen solche Grundgerüste auch, wenn du kein formales Format nimmst, sondern einfach – sinnvoll strukturiert – schreibst. Der Vorteil von Templates ist natürlich die „Recyclingfähigkeit“: Einen super funktionierenden Prompt kannst du mit deinem Team teilen oder als Teil einer „App“ verwenden.

# ROLLE: 
Du bist ein erfahrener Spezialist für...
## AUFGABE
Erstelle XY
## INPUT-PARAMETER
**Input** {{input}}
## SCHRITT-FÜR-SCHRITT-PROZESS
### SCHRITT 1: Analyse 
- To do
### SCHRITT 2: Erster Entwurf
- To do
**WICHTIG:** Nur Informationen aus dem Input verwenden!
### SCHRITT 3: Selbstbewertung 1
- Bewerte deinen Output auf einer Skala von 1-5
**Zwischenscore: __/5**
### SCHRITT 4: Optimierung
Bei Score unter 4 Punkten:
- Schwächste Bereiche identifizieren
- Output verbessern
### SCHRITT 5: Selbstbewertung 2
Wiederhole Bewertung aus Schritt 3 mit dem optimiertem Output.

„Deine“ KI lernt dazu

Auch wenn die KI-Anbieter es nicht als Feature ausloben: KIs lernen „ihren“ User kennen und merken sich dessen Vorlieben – teilweise. Das musst du selbst ausprobieren.

Dass bedeutet: „Was Hänschen lernt, merkt sich Hänschen“. Der Spruch ist ja sonst anders. Die KI lernt also, unter anderem deine Output-Vorlieben und deine Definitionen für High-Level-Konzepte.

Ein Beispiel aus eigener Beobachtung: Ich verwende nicht ganz selten die „Console“ von Anthropic / Claude, also den „Spielplatz“ für die API, mit getrennten Workspaces. Innerhalb eines Workspaces merkt sich die ausgewählte LLM, bspw. Claude 4 Sonnet, meine Vorlieben.

Wenn ich also irgendwann mal gepromptet habe: „Ich möchte den Code in eine WordPress-Seite einfügen; beginne mit <script> und Ende mit </script>; Header etc. brauche ich nicht“ – dann wird Claude sich mit etwas Wahrscheinlichkeit beim nächsten Mal dran erinneren. Ich kann meinen Prompt also kürzer formulieren bzw. bekomme auf Anhieb nutzbare Ergebnisse, und zwar ohne Rückfragen bzw. Chat.

Problematisch für automatisierten Einsatz ist, dass diese leichte Antrainierung a) beim Wechsel des Workspaces und b) beim Wechsel der LLM-Version (bspw. von 4.0 auf 4.1) verloren geht. Automatisierungen, also KI-Agenten o.ä., sollten deshalb bei jedem Wechsel des LLMs frisch getestet werden.

Dein Prompt allein ist kein Riesending

Man denkt ja: Mein Prompt bestimmt den Output. Jedoch ist dein Prompt nur ein kleiner Teil des Gesamt-Prompts der KI. Diese interaktive Grafik zeigt dir den gesamten Prompt-Umfang, und dein Input ist nur der für dich sichtbare Teil.

So kommt es ja durchaus vor, dass ein und derselbe Prompt bei ChatGPT mit Version o3, 4 oder 5, oder was auch immer, jedesmal völlig unterchiedliche Ergebnisse liefert.

LLM Prompting Funnel mit Mixture of Experts

Prompting des LLM-Anbieters
Dies ist die grundlegende Ebene, auf der der LLM-Anbieter das Modell trainiert und konfiguriert.
Modellauswahl
Hier wird das spezifische LLM-Modell ausgewählt, das für die Aufgabe am besten geeignet ist.
Mixture of Experts (MoE)
MoE ist eine Architektur, bei der verschiedene „Experten“ (spezialisierte Teilmodelle) für unterschiedliche Aufgaben zuständig sind.
Expert 1
Expert 2
Expert 3
Parameter (z.B. Temperature)
Einstellung von Parametern wie Temperature, die das Verhalten des Modells beeinflussen.
Systemprompt
Definition des Kontexts und der Rolle des AI-Assistenten für die Konversation.
User-Prompt
Die eigentliche Anfrage oder Aufgabe, die der Benutzer an das LLM stellt.
LLM-Ausgabe
Die generierte Antwort des LLM basierend auf allen vorherigen Stufen und der Kombination der Expertenausgaben.

Der LLM Prompting Funnel im Detail

  1. Prompting des LLM-Anbieters: Dies ist die Grundlage. Hier definiert der LLM-Anbieter die Leitplanken: Dürfen die Outputs urheberrechtlich geschützte Inhalte enthalten, oder personenbezogene Daten wie Namen und Adressen - ja oder nein? Werden Quellen genannt bzw. Fußnoten genannt? Das handhabt jeder Anbieter anders.
    Beispiel: Ich hatte neulich mit einer Firma zu tun, die mir ein Projektergebnis zeigte. Einen Schlüssel-Satz habe ich direkt gegoogelt - und mehrere 1:1 Treffer gefunden. Auf Rückfrage wurde mir mitgeteilt, dass der Schlüsselsatz wohl von ChatGPT kommt. Heißt: Kollege OpenAI-KI hat kein Problem damit, Inhalte "von woanders her" in Outputs zu bauen. Das ist für den geschäftlichen Einsatz ein No-Go.
  2. Modellauswahl: Je nach Aufgabe wird ein passendes LLM-Modell ausgewählt, entweder vom LLM-Anbieter oder von dir. Du kennst es von ChatGPT: Im "Free"-Tarif kannst du nicht alle LLMs von Open AI auswählen, da die "besseren" Sprachmodelle der zahlenden Kundschaft vorbehalten sind.
    Einige Modelle sind besser für kreative Aufgaben, andere für analytische. So gibt es bei Mistral das LLM "Large" für die üblichen KI-Sachen, während "Codestral" aufs Coding spezialisiert ist.
    Oft ist auch die Geschwindigkeit anders: Bei Claude von Anthropic ist "Haiku" besonders schnell (dafür weniger eloquent), und "Opus" ist ziemlich langsam. Die langsamen LLMs - wie o1 oder o3 von Open AI - sind oft deshalb so "denkerisch", weil zusätzliche Denkschritte eingebaut sind, wie das Konzept "Chain of Thought" oder "Self Refine.", wie oben im Beispiel-Prompt. Mehr dazu im Artikel Prompt Engineering.
  3. Mixture of Experts (MoE): Eine KI ist ja meist ein LLM, also ein Sprachmodell. Hier gilt "Judex non calculat" - Richter können nicht rechnen, und auch LLMs tun sich damit schwer. Deshalb setzen große Anbieter im Hintergrund ein für dich nicht sichtbares Expertenteam ein. Dein Prompt oder Input wird zuerst vom "Vorarbeiter" innerhalb der KI analysiert, um ihn dann an eine der vorhandenen "Fachabteilung" oder an ein "Projektteam" weiterzuleiten. Ein Facharbeiter kann bspw. ein Rechenknecht sein, also ein Taschenrechner.
  4. Parameter-Einstellung: Hier kommen Einstellungen wie "Temperature" ins Spiel. Diese Einstellmöglichkeit siehst du nicht immer.
  5. Systemprompt: Definiert den Kontext und die Rolle des AI-Assistenten. Das ist vor allem interessant, wenn du KI-Apps, Chatbots oder GPTs fürs Team baust: Im Systemprompt kannst du das Verhalten des Chatbots o.ä. vorbestimmen. Klassischerweise beginnt ein Systemprompt mit "You act as...". Sowas kannst du auch in den User-Prompt einbauen. Im Backend gibt es dafür ein eigenes Feld.
  6. User-Prompt: Die eigentliche Anfrage oder Aufgabe des Benutzers. Kommt ganz schön spät! Die Einflussmöglichkeiten des Users auf die KI bzw. die Ergebnisse sind also gering.
  7. LLM-Ausgabe: Die generierte Antwort, basierend auf allen vorherigen Stufen.

Mixture of Experts (MoE)

MoE, Mixture of Experts, ist eine KI-Architektur. Stelle dir MoE als ein Team von Spezialisten vor, die bei Bedarf aktiviert werden und zusammenarbeiten, um eine Aufgabe zu lösen.

Wie es funktioniert: Anstatt ein einziges, monolithisches Modell zu verwenden, nutzt der MoE-Ansatz mehrere "Experten" - das sind kleinere, spezialisierte Teilmodellen. Diese werden in einem großen LLM zusammengefasst. Für den User ist das super, da er das LLM wie eine "KI-Agentur" nutzen kann und sich nicht überlegen muss, wem man jetzt welche Aufgabe gibt.

Vorteile:

  1. Effizienz: Nicht alle Experten werden für jede Aufgabe aktiviert. Das spart Rechenpower beim KI-Anbieteer und dir damit Geld.
  2. Spezialisierung: Jeder Experte kann sich auf bestimmte Aspekte konzentrieren. Ein Experte ist dann bspw. fürs Coding zuständig und soll sich auf keinen Fall gereimten Code zusammenfantasieren. Der Datenanalyse-Experte hingegen soll vor allem Daten-Inputs analysieren und dann exakte Berechnungen anstellen. Ein anderer Experte kann wirklich rechnen statt sich nur Zahlen auszudenken.
  3. Skalierbarkeit: Es ist einfacher, neue Experten hinzuzufügen, als ein gesamtes Modell neu zu trainieren.

Temperature: Die Kreativitätssteuerung

"Temperature" ist ein Parameter zur KI-Output-Steuerung. Er beeinflusst, wie "kreativ" oder "fokussiert" die Ausgabe des Modells ist. Nicht jedes LLM hat diese Einstellmöglichkeit: Bei Claude gibt es den Schieberegler im Normalfall - außer im "Thinking"-Modus, wo er verschwindet.

  • Niedrige Temperature (nahe 0):
    • Führt zu deterministischeren, vorhersehbareren Antworten.
    • Gut für faktische Aufgaben, Zusammenfassungen oder wenn Präzision wichtig ist.
  • Hohe Temperature (nahe 1):
    • Erzeugt vielfältigere, kreativere Antworten.
    • Nützlich für Brainstorming, kreatives Schreiben oder wenn Originalität gewünscht ist.
  • Analogie: Stelle dir Temperature als den "Mut" des Modells vor, neue Wortverbindungen auszuprobieren. Bei niedriger Temperature bleibt es bei sicheren, bekannten Pfaden - also gängigen Aneinanderreihungen von Token (= Worten). Bei hoher Temperature wagt es sich auf unbekanntes Terrain, was teils als wirres Zeuch endet. Der LLM-Anbieter gibt auch hier Leitplanken vor: Die "0" kann stocksteif sein oder schon leicht kreativ, und 1 kann irre sein oder immer noch im Rahmen.
  • Achtung: Wenn ein LLM vom Anbieter geupdatet wird, kann sich das Verhalten komplett ändern. So unterschieden sich die generierten Ergebnisse von "Claude-3-5-Sonnet-20241022" extrem stark zu "Claude-3-5-Sonnet-20240620". Das vier Monate jüngere "Sonnet" hielt sich noch stärker an deine Vorgaben (u.a. Zahlen, Daten, Fakten) im Prompt und lieferte berechenbarer Ergebnisse; der Temperature-Regler hatte teils nicht arg viel Wirkung. Das ältere "Sonnet" ließ mehr (textliche) Unschärfen zu.

Fazit

Der LLM Prompting Funnel ist ein komplexer Prozess, bei dem jede Stufe die endgültige Ausgabe beeinflusst. Von der grundlegenden Architektur wie MoE bis hin zu feinen Einstellungen wie Temperature - jedes Element spielt eine wichtige Rolle dabei, wie ein LLM denkt und antwortet. Indem wir diese Prozesse verstehen, können wir besser mit KI-Systemen interagieren und ihre Fähigkeiten optimal nutzen.

Für den Profi stellt sich die Frage: Wie viele Freiheiten lässt mir der LLM-Anbieter, und wie viele Freiheiten gebe ich dem User? Hier lohnt es sich, die LLMs gut zu vergleichen. Was ich z.B. an Claude von Anthropic mag, ist die relative "Idiotensicherheit", da die Outputs wenig bis kein urheberrechtlich geschütztes Material enthalten. Ganz perfekt ist aber kein System.

Auf LinkedIn folgen

Über den Autor

Stefan Golling, Köln. Seit 2011 unterstütze ich freiberuflich Unternehmen bzw. Agenturen mit kreativen Ideen, Konzepten und (textlichen) Umsetzungen rund ums (Online-)Marketing. Vorher: 1998 mit Radiowerbung in Stuttgart gestartet, 2000 als Junior-Werbetexter zu Publicis München, 2001 Counterpart Köln, 2002 als Copywriter zu Red Cell Düsseldorf (heißt heute Scholz & Friends), dort ab 2007 Creative Director.

Interesse an einem Austausch?

Artikel zu ähnlichen Themen

Gern 5 Sterne vergeben
Teilen / Share
Zu Hause » KI » Prompting aufgeschlüsselt: Vieles ist unsichtbar

Erstellt am:

Zuletzt aktualisiert: