Large Language Models (LLMs) wie ChatGPT oder Claude beeindrucken durch ihre Fähigkeit, menschenähnliche Texte zu erstellen. Doch wie funktionieren diese komplexen Systeme eigentlich? Die Antwort liegt in der Art, wie sie Sprache verarbeiten: durch Token und Vektoren. Um diese abstrakten Konzepte greifbar zu machen, habe ich ein interaktives 3D-Dashboard entwickeln lassen (No Code, mit Claude), das die vier Grundschritte der LLM-Verarbeitung visualisiert.
Token & Vektoren interaktiv: Ein Fenster in die KI-Welt
Das Dashboard bietet dir eine intuitive 3D-Visualisierung (HTML plus Three.js), um komplexe KI-Konzepte greifbar zu machen. Mit nur einem Klick kannst du zwischen vier verschiedenen Ansichten wechseln:
LLM-Konzept Dashboard: Token-Vektorisierung und Sequenzverarbeitung
Dimensionen: 512
Prozessvisualisierung
Wähle einen Schritt aus, um den LLM-Verarbeitungsprozess zu visualisieren.
Die vier Verarbeitungsschritte im Überblick:
Tokenisierung: Text wird in kleine Einheiten zerlegt bzw. aus kleinen Einheiten (kurze Wörter, Silben) zusammengesetzt
Vektorisierung: Token werden in mathematische Darstellungen umgewandelt (bzw. aus verschiedenen Ecken des n-dimensionalen Raums zusammengesetzt)
Attention: Das Modell berechnet Beziehungen zwischen allen Token (die verbundenen Token werden auf Sinnhaftigkeit geprüft)
Sequenzverarbeitung: Die Informationen fließen durch das neuronale Netzwerk – das ist dann dein z.B. Ouptut
Die Schritte im Detail:
Token-Ansicht: Hier siehst du (zufällig) bunte Kugeln, die einzelne Token darstellen. In der Welt der LLMs sind Token die Grundbausteine der Sprache – sie können einzelne Buchstaben, Wortteile oder ganze Wörter repräsentieren.
Vektor-Ansicht: Diese zeigt Pfeile in verschiedenen Richtungen. Jeder Pfeil steht für einen Vektor – eine mathematische Darstellung der Bedeutung eines Tokens in einem hochdimensionalen Raum (meist 512-4.096 Dimensionen). Ähnliche Wörter werden zu ähnlichen Vektoren: „Bank“ als Sitzgelegenheit landet nahe bei „Stuhl“ und „Möbel“, während „Bank“ als Kreditinstitut nahe bei „Geld“ und „Finanzierung“ steht. Die Vektorposition im Raum bestimmt die semantische Bedeutung.
Attention: Hier werden Vektoren und Token in Beziehung gesetzt. Ein Beispiel ist das Wort „Bank“. „Bitte helfe mir beim Bau einer Bank“ könnte bedeuten, dass man eine Gartenbank bauen will (dann wäre man im Bereich Schreinerei bzw. Heimwerken) – oder beim Bau eines Bankgebäudes, also Architektur / Statik etc. Wenn das LLM nicht gut trainiert ist, erkennt es a) den Kontext nicht und b) kaschiert fehlende Informationen durch Halluzination – anstatt Wissenslücken „zu gestehen“ oder Rückfragen zu stellen. Dazu gleich mehr. Der Attention-Mechanismus funktioniert also wie ein Suchscheinwerfer: Für jedes Token berechnet das Modell, wie stark es auf alle anderen Token in der Sequenz „achten“ soll. Dadurch kann es beispielsweise erkennen, dass sich „er“ in „Der Mann ging zum Arzt. Er war krank.“ auf „Mann“ bezieht, nicht auf „Arzt“. (Bei einem größeren Kontext könnte das natürlich wieder anders aussehen, denn der „Mann“ könnte auch „Arzt“ sein, der einem anderen Arzt helfen will – wenn sich der Mensch also wirr ausdrückt, kommt das LLM ins Schleudern).
Kombinierte, sequenzierte Ansicht: Hier siehst du Token und Vektoren gemeinsam, was verdeutlicht, wie LLMs Sprache in mathematische Konzepte übersetzen.
So unterschiedlich sind LLM-Outputs
Im Bild siehst du, wenn ein LLM Verständnisprobleme hat. Im Test ist das kleine Modell von Mistral (Mistral 7B), das von Haus aus schlecht Deutsch kann. Prompt: „Bitte helfe mir beim Bau einer Bank“. Das LLM denkt, dass ich eine Bank gründen will. Zuerst soll ich einen Plan „aufpauschen“ (?). Außerdem geht es später um „Käufer“ und „Siedler“ (Hä? Sind wir im wilden Westen?).
In diesem Bild siehst du, wie Claude Opus 4 mit aktiviertem „Thinking“-Modus auf die gleiche Frage „Bitte helfe mir beim Bau einer Bank“ reagiert: Zuerst wird die Ambiguität der Frage erkannt. Dann trifft das LLM die Annahme, dass man wohl eine Sitzbank bauen möchte – in den meisten Fällen ist das richtig. Das LLM stellt aber eine Rückfrage – es weiß, dass es falsch liegen könnte. Außerdem erkennt das LLM, dass die Anfrage auf Deutsch war und der User deshalb wahrscheinlich Maßangaben in Zentimetern (statt Zoll) erwartet.
Und was macht ChatGPT, in diesem Fall das LLM o4-mini (mit Reasoning auf „Medium“? Das LLM ist sich komplett sicher, dass ich eine Sitzbank bauen will und liefert eine sehr detaillierte Anleitung. Dass ich ein Kreditinstitut bauen wollen könnte, wird nicht in Betracht gezogen.
Du siehst also, dass diese drei LLMs zu drei stark unterschiedlichen Ergebnissen kommen. Das liegt unter anderem daran, welche Voreinstellungen die Betreiber vorgenommen haben.
Token, Vektoren: Warum ist das wichtig?
Token und Vektoren ist wichtig, um die Funktionsweise von LLMs wie Claude zu verstehen. Denn nur wenn man die Basis dahinter versteht, kann man mit den richtigen Erwartungshaltungen an die Nutzung rangehen.
Token sind die Einheiten, in die ein Text zerlegt wird. Sie ermöglichen es dem Modell, Sprache in verdauliche Stücke zu zerlegen.
Token pro Sekunde: LLMs brauchen sehr viel Rechenleistung. Als Normal-User von Online-LLMs bekommt man davon nichts mit, weil man LLMs nutzt, die in der Cloud auf extrem schnellen Computern laufen. Ein besseres Gefühl bekommt man, wenn man eine KI auf seinem Laptop laufen lässt. Für Intel-Windows-User ist der „AI Playground“ von Intel interessant, um lokal (kleinere) LLMs laufen zu lassen. Man wundert sich, wie langsam das auf einmal geht, und wie schlecht die Ergebnisse teilweise sind. Manchmal liefert der Computer dann nur ein paar Token pro Sekunde, tippt also in etwa so langsam wie ein Mensch mit Zweifingersuchsystem.
Vektoren sind die Art und Weise, wie diese Token im „Gehirn“ des Modells repräsentiert werden. Sie erfassen subtile Bedeutungen und Beziehungen zwischen Wörtern. Vektoren sind auch die Grundlage für RAG (Retrieval-Augmented Generation) – das „Chatten mit eigenen Dokumenten“. Dabei werden Dokumente in Textabschnitte zerlegt, vektorisiert und in einer Vektordatenbank gespeichert. Bei einer Anfrage sucht das System ähnliche Vektoren und fügt die gefundenen Textpassagen als Kontext zur Antwort hinzu. So kann das LLM auf Informationen zugreifen, die nicht in seinen Trainingsdaten enthalten waren. Zur Verarbeitung der Daten werden Vektordatenbanken wie z.B. qdrant genutzt. Erst damit – und mit weiteren technischen Lösungen – wird dann eine a) unscharfe Suche möglich und b) kann das System dann Text generieren. Eine (relativ) einfache Erklärung zur Vektorsuche steht bei qdrant (EN): https://qdrant.tech/documentation/overview/vector-search/
Durch die Umwandlung von Token in Vektoren kann ein LLM die Nuancen der Sprache erfassen und verstehen. Dies ist der Grund, warum Modelle wie Claude in der Lage sind, kontextabhängige und nuancierte Antworten zu generieren.
LLMs haben Milliarden von Parametern, die das „Wissen“ des Modells repräsentieren. Das Vokabular (Token-Set) umfasst meist 50.000-100.000 verschiedene Token. Das Kurzzeitgedächtnis (Context Window) ist hingegen die Anzahl der Token, die das Modell gleichzeitig verarbeiten kann – das sind bei modernen Modellen 32.000 bis 200.000 Token pro Eingabe – teils auch bis zu 1 Million und mehr. Allerdings gilt dann, dass die Output-Qualität bei komplett ausgenutztem Context Window sinkt – du erkennst sowas, wenn das LLM Tippfehler etc. macht.
Fazit
Das Verständnis von Token und Vektoren ist der Schlüssel zum bewussten Umgang mit LLMs. Token bestimmen, wie präzise das Modell deine Eingabe versteht, während Vektoren die semantischen Beziehungen erfassen. Wer diese Grundlagen kennt, kann LLMs gezielter einsetzen, ihre Grenzen besser einschätzen und aussagekräftigere Prompts formulieren. Die Unterschiede zwischen den Modellen zeigen: Nicht jedes LLM ist für jeden Zweck gleich gut geeignet.
Stefan Golling, Köln. Seit 2011 Freelance Creative Director, freier Texter, Creative Consultant und Online-Marketing-Berater mit Kunden von Mittelstand bis S&P 500. Erfahrung: 1998 mit Radiowerbung in Stuttgart gestartet, 2000 als Junior-Werbetexter zu Publicis München, 2001 Counterpart Köln, 2002 als Copywriter zu Red Cell Düsseldorf (heißt heute Scholz & Friends), dort ab 2007 Creative Director.
Ja, hier gibt's Cookies, unter anderem Google und HubSpot, aber nicht die volle “wir und unsere 1.200 Partner” Packung.
Funktionale Cookies
Immer aktiv
Die technische Speicherung oder der Zugang ist unbedingt erforderlich für den rechtmäßigen Zweck, die Nutzung eines bestimmten Dienstes zu ermöglichen, der vom Teilnehmer oder Nutzer ausdrücklich gewünscht wird, oder für den alleinigen Zweck, die Übertragung einer Nachricht über ein elektronisches Kommunikationsnetz durchzuführen.
Vorlieben
Die technische Speicherung oder der Zugriff ist für den rechtmäßigen Zweck der Speicherung von Präferenzen erforderlich, die nicht vom Abonnenten oder Benutzer angefordert wurden.
Statistiken
Die technische Speicherung oder der Zugriff, der ausschließlich zu statistischen Zwecken erfolgt.Die technische Speicherung oder der Zugriff, der ausschließlich zu anonymen statistischen Zwecken verwendet wird. Ohne eine Vorladung, die freiwillige Zustimmung deines Internetdienstanbieters oder zusätzliche Aufzeichnungen von Dritten können die zu diesem Zweck gespeicherten oder abgerufenen Informationen allein in der Regel nicht dazu verwendet werden, dich zu identifizieren.
Marketing
The technical storage or access is required to create user profiles to send advertising, or to track the user on a website or across several websites for similar marketing purposes.