Large Language Models (LLMs) wie ChatGPT oder Claude faszinieren uns unter anderem durch ihre Fähigkeit, menschenähnliche Texte zu erstellen. Oder eigentlich: Uns kommt es mittlerweile selbstverständlich vor, wenn eine Maschine sinnvolle Inhalte ausgibt. Dabei vergessen wir aber oft, dass es Technologie ist, mit der wir uns unterhalten. Oft halten wir die Outputs für so plausibel – und sie sollen plausibel wirken – dass wir sie unkritisch übernehmen (oder die generierten Inhalte für schlauer halten als sie eigentlich sind),
Deshalb lohnt es sich, sich eine grundlegende Frage zu stellen: Wie funktionieren diese KI-Systeme eigentlich?
Die Antwort: Sie verarbeiten Sprache nicht Buchstabe für Buchstabe, Wort für Wort oder Zahl für Zahl, sondern durch Token und Vektoren. Vereinfacht gesagt „merkt“ sich eine KI Wortfetzen – Token – inklusive einer „Position“ in einem n-dimensionalen Kontextraum.
Ein wenig besser versteht man die Technik dahinter mit einer Visualisierung, die du gleich siehst; sie wurde mit Hilfe von Claude erstellt.
Token & Vektoren interaktiv: Ein Fenster in die KI-Welt
Das Dashboard bietet dir eine 3D-Visualisierung (HTML plus Three.js), um LLM-Konzepte greifbar zu machen. Mit nur einem Klick kannst du zwischen vier verschiedenen Ansichten wechseln:
LLM-Konzept Dashboard: Token-Vektorisierung und Sequenzverarbeitung
Dimensionen: 512
Prozessvisualisierung
Wähle einen Schritt aus, um den LLM-Verarbeitungsprozess zu visualisieren.
Die vier Verarbeitungsschritte im Überblick:
Tokenisierung: Text wird in kleine Einheiten zerlegt bzw. aus kleinen Einheiten (kurze Wörter, Silben) zusammengesetzt
Vektorisierung: Token werden in mathematische Darstellungen umgewandelt (bzw. aus verschiedenen Ecken des n-dimensionalen Raums zusammengesetzt)
Attention: Das Modell berechnet Beziehungen zwischen allen Token (die verbundenen Token werden auf Sinnhaftigkeit geprüft)
Sequenzverarbeitung: Die Informationen fließen durch das neuronale Netzwerk – das ist dann dein z.B. Ouptut
Die Schritte im Detail:
Token-Ansicht: Hier siehst du (zufällig) bunte Kugeln, die einzelne Token darstellen. In der Welt der LLMs sind Token die Grundbausteine der Sprache – sie können einzelne Buchstaben, Wortteile oder ganze Wörter repräsentieren.
Vektor-Ansicht: Diese zeigt Pfeile in verschiedenen Richtungen. Jeder Pfeil steht für einen Vektor – eine mathematische Darstellung der Bedeutung eines Tokens in einem hochdimensionalen Raum (meist 512-4.096 Dimensionen). Ähnliche Wörter werden zu ähnlichen Vektoren: „Bank“ als Sitzgelegenheit landet nahe bei „Stuhl“ und „Möbel“, während „Bank“ als Kreditinstitut nahe bei „Geld“ und „Finanzierung“ steht. Die Vektorposition im Raum bestimmt die semantische Bedeutung.
Attention: Hier werden Vektoren und Token in Beziehung gesetzt. Ein Beispiel ist das Wort „Bank“. „Bitte helfe mir beim Bau einer Bank“ könnte bedeuten, dass man eine Gartenbank bauen will (dann wäre man im Bereich Schreinerei bzw. Heimwerken) – oder beim Bau eines Bankgebäudes, also Architektur / Statik etc. Wenn das LLM nicht gut trainiert ist, erkennt es a) den Kontext nicht und b) kaschiert fehlende Informationen durch Halluzination – anstatt Wissenslücken „zu gestehen“ oder Rückfragen zu stellen. Dazu gleich mehr. Der Attention-Mechanismus funktioniert also wie ein Suchscheinwerfer: Für jedes Token berechnet das Modell, wie stark es auf alle anderen Token in der Sequenz „achten“ soll. Dadurch kann es beispielsweise erkennen, dass sich „er“ in „Der Mann ging zum Arzt. Er war krank.“ auf „Mann“ bezieht, nicht auf „Arzt“. (Bei einem größeren Kontext könnte das natürlich wieder anders aussehen, denn der „Mann“ könnte auch „Arzt“ sein, der einem anderen Arzt helfen will – wenn sich der Mensch also wirr ausdrückt, kommt das LLM ins Schleudern).
Kombinierte, sequenzierte Ansicht: Hier siehst du Token und Vektoren gemeinsam, was verdeutlicht, wie LLMs Sprache in mathematische Konzepte übersetzen.
Was ist die beste KI? So unterschiedlich sind LLM-Outputs
In der grundlegenden Technik – Token, Vektoren etc. – arbeiten die generativen KIs (fast) alle gleich (den Ausflug in Richtung „Transformer“ mit GPT und BERT o.ä. sparen wir uns mal). Theoretisch hat jede KI das Zeug zur besten KI.
Dennoch unterscheiden sich die Arbeitsweisen und Outputs extrem, vor allem aus zwei Gründen:
Wie „fett“ ist die KI? Hier spielen viele Faktoren rein, wie Anzahl der Parameter, Qualität und Aktualität der Trainingsdaten, Aufwand beim manuellen Feintuning, Strategie des „Anlernens“, „Mixture of Experts“ Technik, „Reasoning“ bzw. „Thinking“, Websuche, Dokumentenverarbeitung uvm. Mini-KIs sind kompakt und brauchen wenig Rechenpower, sind aber „Fachidioten“ oder für „Hilfsarbeiterjobs“ geeignet (das ist nicht böse gemeint!). Große KIs wie ChatGPT, Claude oder Gemini sind indes ressourcenhungrige Alleskönner.
Wie ist das (meist geheime) Vorprompting? Das ist die Black Box. Wir als User wissen nicht unbedingt, was die Programmierer der KI an Arbeitsanweisungen in die Wiege gelegt haben. Forscher haben auch schon rausgefunden, dass manche KIs die Input-Sprache bzw. die Intention des Users auslesen und nicht nur den Output verweigern – das wäre transparent – sondern absichtlich Fehler in den Output einbauen. Speziell bei Code ist das übel, wenn bspw. Sicherheitslücken eingebaut werden.
Beginnen wir mit einem kleinen Vergleichstest.
Kandidat 1 ist ein kleines LLM, nämlich Mistral 7B aus Frankreich, danach kommen Claude und ChatGPT. Es geht ums Thema „Bank“. „Bank“ ist ein mehrdeutiges Wort.
Im Bild siehst du, wenn ein LLM Verständnisprobleme hat. Im Test ist das kleine Modell von Mistral (Mistral 7B), das von Haus aus schlecht Deutsch kann. Prompt: „Bitte helfe mir beim Bau einer Bank“. Das LLM denkt, dass ich eine Bank gründen will. Zuerst soll ich einen Plan „aufpauschen“ (?). Außerdem geht es später um „Käufer“ und „Siedler“ (Hä? Sind wir im wilden Westen?). Sowas ist schlichtweg unbenutzbar. 7B bedeutet 7 Milliarden Parameter, es ist also eine „kleine“ KI. Wenn du eine kleine KI produktiv einsetzen willst, musst du evtl. auf deine Aufgaben „trainieren“, was Zeit und Geld kostet.
In diesem Bild siehst du, wie Claude Opus 4 mit aktiviertem „Thinking“-Modus auf die gleiche Frage „Bitte helfe mir beim Bau einer Bank“ reagiert: Zuerst wird die Ambiguität der Frage erkannt – die Programmierer haben der KI also eingeschärft „breiter“ zu „denken“. Dann trifft das LLM dennoch die Annahme, dass man wohl eine Sitzbank bauen möchte – in den meisten Fällen ist das richtig. Das LLM stellt aber eine Rückfrage – es weiß, dass es falsch liegen könnte. Außerdem erkennt das LLM, dass die Anfrage auf Deutsch war und der User deshalb wahrscheinlich Maßangaben in Zentimetern (statt Zoll) erwartet.
Und was macht ChatGPT, in diesem Fall das LLM o4-mini (mit Reasoning auf „Medium“? Das LLM ist sich komplett sicher, dass ich eine Sitzbank bauen will und liefert eine sehr detaillierte Anleitung. Dass ich ein Kreditinstitut bauen wollen könnte, wird nicht in Betracht gezogen.
Du siehst also, dass diese drei LLMs zu drei stark unterschiedlichen Ergebnissen kommen. Das liegt unter anderem daran, welche Voreinstellungen die Betreiber vorgenommen haben.
Token, Vektoren: Warum ist das wichtig?
Token und Vektoren ist wichtig, um die Funktionsweise von LLMs wie Claude zu verstehen. Denn nur wenn man die Basis dahinter versteht, kann man mit den richtigen Erwartungshaltungen an die Nutzung rangehen.
Token sind die Einheiten, in die ein Text zerlegt wird. Sie ermöglichen es dem Modell, Sprache in verdauliche Stücke zu zerlegen – in einen Token passt ein kurzes Wort oder ein Wortfetzen.
Token pro Sekunde: LLMs brauchen sehr viel Rechenleistung. Als Normal-User von Online-LLMs bekommt man davon nichts mit, weil man LLMs nutzt, die in der Cloud auf extrem schnellen Computern laufen. Ein besseres Gefühl bekommt man, wenn man eine KI auf seinem Laptop laufen lässt. Für Intel-Windows-User ist der „AI Playground“ von Intel interessant, um lokal (kleinere) LLMs laufen zu lassen. Man wundert sich, wie langsam das auf einmal geht, und wie schlecht die Ergebnisse teilweise sind. Manchmal liefert der Computer dann nur ein paar Token pro Sekunde, tippt also in etwa so langsam wie ein Mensch mit Zweifingersuchsystem.
Vektoren sind die Art und Weise, wie diese Token im „Gehirn“ des Modells repräsentiert werden. Sie erfassen subtile Bedeutungen und Beziehungen zwischen Wörtern. Vektoren sind auch die Grundlage für RAG (Retrieval-Augmented Generation) – das „Chatten mit eigenen Dokumenten“. Dabei werden Dokumente in Textabschnitte zerlegt, vektorisiert und in einer Vektordatenbank gespeichert. Bei einer Anfrage sucht das System ähnliche Vektoren und fügt die gefundenen Textpassagen als Kontext zur Antwort hinzu. So kann das LLM auf Informationen zugreifen, die nicht in seinen Trainingsdaten enthalten waren. Zur Verarbeitung der Daten werden Vektordatenbanken wie z.B. qdrant genutzt. Erst damit – und mit weiteren technischen Lösungen – wird dann eine a) unscharfe Suche möglich und b) kann das System dann Text generieren. Eine (relativ) einfache Erklärung zur Vektorsuche steht bei qdrant (EN): https://qdrant.tech/documentation/overview/vector-search/
Durch die Umwandlung von Token in Vektoren kann ein LLM die Nuancen der Sprache erfassen und verstehen. Dies ist der Grund, warum Modelle wie Claude in der Lage sind, kontextabhängige und nuancierte Antworten zu generieren.
LLMs haben Milliarden von Parametern, die das „Wissen“ des Modells repräsentieren. Das Vokabular (Token-Set) umfasst meist 50.000-100.000 verschiedene Token. Das Kurzzeitgedächtnis (Context Window) ist hingegen die Anzahl der Token, die das Modell gleichzeitig verarbeiten kann – das sind bei modernen Modellen 32.000 bis 200.000 Token pro Eingabe – teils auch bis zu 1 Million und mehr. Allerdings gilt dann, dass die Output-Qualität bei komplett ausgenutztem Context Window sinkt – du erkennst sowas, wenn das LLM Tippfehler etc. macht.
Fazit
Das Verständnis von Token und Vektoren nicht ganz unwichtig, um als Anwender LLMs sinnvoll zu nutzen. Token bestimmen, wie präzise das Modell deine Eingabe versteht, während Vektoren die semantischen Beziehungen erfassen. Wer diese Grundlagen kennt, kann LLMs gezielter einsetzen, ihre Leistungsgrenzen besser einschätzen und aussagekräftigere Prompts formulieren. Die Unterschiede zwischen den Modellen zeigen: Nicht jedes LLM ist für jeden Zweck gleich gut geeignet.
Stefan Golling, Köln. Seit 2011 unterstütze ich freiberuflich Unternehmen bzw. Agenturen mit kreativen Ideen, Konzepten und (textlichen) Umsetzungen rund ums (Online-)Marketing. Vorher: 1998 mit Radiowerbung in Stuttgart gestartet, 2000 als Junior-Werbetexter zu Publicis München, 2001 Counterpart Köln, 2002 als Copywriter zu Red Cell Düsseldorf (heißt heute Scholz & Friends), dort ab 2007 Creative Director.
Ja, hier gibt's Cookies, unter anderem Google und HubSpot, aber nicht die volle “wir und unsere 1.200 Partner” Packung.
Funktionale Cookies
Immer aktiv
Die technische Speicherung oder der Zugang ist unbedingt erforderlich für den rechtmäßigen Zweck, die Nutzung eines bestimmten Dienstes zu ermöglichen, der vom Teilnehmer oder Nutzer ausdrücklich gewünscht wird, oder für den alleinigen Zweck, die Übertragung einer Nachricht über ein elektronisches Kommunikationsnetz durchzuführen.
Vorlieben
Die technische Speicherung oder der Zugriff ist für den rechtmäßigen Zweck der Speicherung von Präferenzen erforderlich, die nicht vom Abonnenten oder Benutzer angefordert wurden.
Statistiken
Die technische Speicherung oder der Zugriff, der ausschließlich zu statistischen Zwecken erfolgt.Die technische Speicherung oder der Zugriff, der ausschließlich zu anonymen statistischen Zwecken verwendet wird. Ohne eine Vorladung, die freiwillige Zustimmung deines Internetdienstanbieters oder zusätzliche Aufzeichnungen von Dritten können die zu diesem Zweck gespeicherten oder abgerufenen Informationen allein in der Regel nicht dazu verwendet werden, dich zu identifizieren.
Marketing
The technical storage or access is required to create user profiles to send advertising, or to track the user on a website or across several websites for similar marketing purposes.