LLMs verstehen: Token und Vektoren als Dashboard

Large Language Models (LLMs) wie ChatGPT oder Claude faszinieren uns unter anderem durch ihre Fähigkeit, menschenähnliche Texte zu erstellen. Oder eigentlich: Uns kommt es mittlerweile selbstverständlich vor, wenn eine Maschine sinnvolle Inhalte ausgibt. Dabei vergessen wir aber oft, dass es Technologie ist, mit der wir uns unterhalten. Oft halten wir die Outputs für so plausibel – und sie sollen plausibel wirken – dass wir sie unkritisch übernehmen (oder die generierten Inhalte für schlauer halten als sie eigentlich sind),

Deshalb lohnt es sich, sich eine grundlegende Frage zu stellen: Wie funktionieren diese KI-Systeme eigentlich?

Die Antwort: Sie verarbeiten Sprache nicht Buchstabe für Buchstabe, Wort für Wort oder Zahl für Zahl, sondern durch Token und Vektoren. Vereinfacht gesagt „merkt“ sich eine KI Wortfetzen – Token – inklusive einer „Position“ in einem n-dimensionalen Kontextraum.

Ein wenig besser versteht man die Technik dahinter mit einer Visualisierung, die du gleich siehst; sie wurde mit Hilfe von Claude erstellt.

Inhalt

Token & Vektoren interaktiv: Ein Fenster in die KI-Welt

Das Dashboard bietet dir eine 3D-Visualisierung (HTML plus Three.js), um LLM-Konzepte greifbar zu machen. Mit nur einem Klick kannst du zwischen vier verschiedenen Ansichten wechseln:

LLM-Konzept Dashboard: Token-Vektorisierung und Sequenzverarbeitung

Dimensionen: 512

Prozessvisualisierung

Wähle einen Schritt aus, um den LLM-Verarbeitungsprozess zu visualisieren.

Die vier Verarbeitungsschritte im Überblick:

Die Schritte im Detail:

Was ist die beste KI? So unterschiedlich sind LLM-Outputs

In der grundlegenden Technik – Token, Vektoren etc. – arbeiten die generativen KIs (fast) alle gleich (den Ausflug in Richtung „Transformer“ mit GPT und BERT o.ä. sparen wir uns mal). Theoretisch hat jede KI das Zeug zur besten KI.

Dennoch unterscheiden sich die Arbeitsweisen und Outputs extrem, vor allem aus zwei Gründen:

Beginnen wir mit einem kleinen Vergleichstest.

Kandidat 1 ist ein kleines LLM, nämlich Mistral 7B aus Frankreich, danach kommen Claude und ChatGPT. Es geht ums Thema „Bank“. „Bank“ ist ein mehrdeutiges Wort.

Token, Vektoren: Warum ist das wichtig?

Token und Vektoren ist wichtig, um die Funktionsweise von LLMs wie Claude zu verstehen. Denn nur wenn man die Basis dahinter versteht, kann man mit den richtigen Erwartungshaltungen an die Nutzung rangehen.

Durch die Umwandlung von Token in Vektoren kann ein LLM die Nuancen der Sprache erfassen und verstehen. Dies ist der Grund, warum Modelle wie Claude in der Lage sind, kontextabhängige und nuancierte Antworten zu generieren.

LLMs haben Milliarden von Parametern, die das „Wissen“ des Modells repräsentieren. Das Vokabular (Token-Set) umfasst meist 50.000-100.000 verschiedene Token. Das Kurzzeitgedächtnis (Context Window) ist hingegen die Anzahl der Token, die das Modell gleichzeitig verarbeiten kann – das sind bei modernen Modellen 32.000 bis 200.000 Token pro Eingabe – teils auch bis zu 1 Million und mehr. Allerdings gilt dann, dass die Output-Qualität bei komplett ausgenutztem Context Window sinkt – du erkennst sowas, wenn das LLM Tippfehler etc. macht.

Fazit

Das Verständnis von Token und Vektoren nicht ganz unwichtig, um als Anwender LLMs sinnvoll zu nutzen. Token bestimmen, wie präzise das Modell deine Eingabe versteht, während Vektoren die semantischen Beziehungen erfassen. Wer diese Grundlagen kennt, kann LLMs gezielter einsetzen, ihre Leistungsgrenzen besser einschätzen und aussagekräftigere Prompts formulieren. Die Unterschiede zwischen den Modellen zeigen: Nicht jedes LLM ist für jeden Zweck gleich gut geeignet.

Auf LinkedIn folgen

Über den Autor

Stefan Golling, Köln. Seit 2011 unterstütze ich freiberuflich Unternehmen bzw. Agenturen mit kreativen Ideen, Konzepten und (textlichen) Umsetzungen rund ums (Online-)Marketing. Vorher: 1998 mit Radiowerbung in Stuttgart gestartet, 2000 als Junior-Werbetexter zu Publicis München, 2001 Counterpart Köln, 2002 als Copywriter zu Red Cell Düsseldorf (heißt heute Scholz & Friends), dort ab 2007 Creative Director.

Kontakt

Artikel zu ähnlichen Themen

Gern 5 Sterne vergeben
Teilen / Share
Zu Hause » KI » LLMs verstehen: Token und Vektoren als Dashboard

Erstellt am:

Zuletzt aktualisiert: