Von regelbasierten Systemen zu Sprachverstehern
Künstliche Intelligenz ist kein neues Thema, doch in den letzten Jahren wurde in diesem Bereich eine neue Dimension erreicht. Technologien wie ChatGPT, Microsoft Copilot oder Claude arbeiten auf einem Fundament, das 2017 durch einen Forschungsartikel von Google neu gelegt wurde: dem Transformer-Modell. In diesem Beitrag möchte ich einen Überblick geben, wie Transformer-Modelle funktionieren, warum sie klassischen KI-Ansätzen überlegen sind und welche Bedeutung sie für moderne Sprachmodelle wie Large Language Models (LLM) und Small Language Models (SLM) haben.
Rückblick: Wie KI früher funktionierte
Vor dem Durchbruch der Transformer-Modelle dominierte eine andere Logik:
- Regelbasierte Systeme (Expertensysteme): Entscheidungen wurden durch explizite Wenn-Dann-Regeln getroffen. Alles musste vordefiniert werden. Flexibilität? – Eher weniger!
- Statistische Methoden / RNNs / LSTMs: Mit dem Aufkommen neuronaler Netze kamen rekurrente Modelle auf, die Daten sequenziell verarbeiteten. Das heißt: ein Wort nach dem anderen. Zwar konnten sie sich Informationen merken, aber im längeren Kontext verloren sie schnell den Überblick. Zudem ließen sie sich kaum parallelisieren und waren ineffizient im Training.
Diese Modelle legten die Grundlage für die ersten Fortschritte, stießen aber schnell an ihre Grenzen.

Exkurs: Entwicklung früher KI-Ansätze – von Expertensystemen zu RNNs
Bevor moderne KI-Modelle auf Basis von Transformer-Architekturen entstanden, prägten verschiedene Technologien die Entwicklung künstlicher Intelligenz:
- Expertensysteme basierten auf festen Wenn-Dann-Regeln, die von menschlichen Experten definiert wurden. Sie waren in klar umrissenen Anwendungsfeldern zuverlässig, konnten jedoch nicht flexibel auf neue Situationen reagieren oder lernen.
- Statistische Methoden wie Entscheidungsbäume, naive Bayes-Klassifikatoren oder Support-Vector-Machines nutzten mathematische Modelle zur Mustererkennung in strukturierten Daten. Sie lieferten erste beeindruckende Ergebnisse, waren aber stark auf Feature-Engineering angewiesen.
- RNNs (Recurrent Neural Networks) führten die Verarbeitung von Sequenzen ein. Sie konnten sich Informationen aus früheren Eingaben merken – beispielsweise für Sprache oder Zeitreihen.
- LSTMs (Long Short-Term Memory) erweiterten klassische RNNs um spezielle Speichermechanismen, die langfristige Abhängigkeiten in Texten besser erfassen konnten. Dennoch litten sie unter langsamen Trainingszeiten und begrenztem Kontextverständnis bei langen Eingabesequenzen.
Diese Technologien legten wichtige Grundlagen – doch erst Transformer-Modelle machten eine skalierbare, kontextuelle Sprachverarbeitung auf heutigem Niveau möglich.
Die Transformer-Revolution
Mit dem Paper „Attention Is All You Need“ wurde 2017 ein neuer Ansatz vorgestellt: der Transformer.
Seine Grundidee: Jedes Wort in einem Satz kann sich auf jedes andere Wort beziehen – und zwar gleichzeitig. Diese Technik nennt sich Self-Attention.
Technischer Aufbau (vereinfacht):
Ein Transformer besteht aus mehreren identischen Schichten mit:
- Multi-Head Self-Attention: Wörter werden im Kontext aller anderen verwendeten Wörter gewichtet
- Feedforward-Netze: Weiterverarbeitung der gewichteten Informationen
- Residual-Verbindungen und Normalisierung: Stabilisieren das Lernen und erlauben ‚tiefere‘ (komplexere) Netze
Der große Vorteil: Alle Wörter können gleichzeitig analysiert werden – das fördert Geschwindigkeit, Kontextverständnis und Skalierbarkeit.
Beispiel:
„Die KI, die von einem kleinen Forschungsteam in Dortmund entwickelt wurde, beeindruckt durch ihre Effizienz.“
Ein Transformer erkennt sofort, dass sich das Wort die auf KI bezieht – trotz Einschub.

Deep Dive: Wie Transformer-Modelle konkret arbeiten
Ein Transformer-Modell verarbeitet einen Text nicht Wort für Wort nacheinander, sondern betrachtet alle Wörter gleichzeitig. Der Schlüssel liegt in der sogenannten Self-Attention – einem Mechanismus, der bestimmt, welche anderen Wörter in einem Satz für ein bestimmtes Wort relevant sind.
Schrittweise Verarbeitung:
- Tokenisierung: Der Eingangstext wird in sogenannte Tokens zerlegt – meist Wörter oder Wortbestandteile
- Einbettung (Embedding): Jedes Token wird in einen Vektor umgewandelt, der semantische Eigenschaften des Wortes codiert
- Positionale Kodierung: Da Transformer keine Reihenfolge kennen, wird jedem Token zusätzlich eine Positionsinformation hinzugefügt, damit die Reihenfolge der Wörter im Satz berücksichtigt werden kann
- Self-Attention-Mechanismus: Für jedes Token wird berechnet, wie stark es auf andere Tokens im Satz achtet. Diese Gewichtung erfolgt anhand sogenannter Q (Query), K (Key) und V (Value) Vektoren:
- Query fragt: Was suche ich?
- Key antwortet: Was biete ich an?
- Value liefert: Welche Information bringe ich mit? Das Skalarprodukt aus Query und Key (ggf. skaliert und normalisiert) ergibt eine Gewichtung, die dann auf die Value-Vektoren angewendet wird
- Mehrere Köpfe (Multi-Head Attention): Mehrere Self-Attention-Mechanismen laufen parallel, um unterschiedliche Arten von Beziehungen gleichzeitig zu erfassen – z.B. semantisch, syntaktisch oder grammatikalisch
- Feedforward-Schichten: Die aggregierten Informationen werden durch ein vollvernetztes neuronales Netz geschickt und weiter transformiert
- Residualverbindungen und Normalisierung: Diese Mechanismen stabilisieren das Netzwerk, beschleunigen das Training und vermeiden den Verlust früherer Informationen
- Decoder (bei generativen Modellen): Während der Decoder bei rein klassifizierenden Aufgaben entfällt, erzeugt er bei Sprachmodellen wie GPT Token für Token eine Ausgabe – auf Basis des bisherigen Kontexts und der Self-Attention-Ergebnisse
Beispiel 1: Kontextuelles Verständnis
„Obwohl die Schülerin ihre Hausaufgaben vergessen hatte, wurde sie von der Lehrerin gelobt.“
Ein Transformer erkennt, dass sich sie auf die Schülerin bezieht – trotz der einfügenden Nebensatzstruktur. Klassische RNNs verlieren hier oft den Bezug.
Beispiel 2: Mehrdeutigkeit im Satz
„Bank“ – gemeint als Sitzgelegenheit oder Finanzinstitut?
Durch Self-Attention und den Kontext in der Umgebung (z.B. „Er hob Geld von der Bank ab“ vs. „Sie setzte sich auf die Bank im Park“) kann das Modell die passende Bedeutung korrekt zuordnen.
Beispiel 3: Sprachgenerierung
Ein Transformer-basiertes Modell wie GPT erzeugt auf die Eingabe „Schreibe einen Satz mit dem Wort Nachhaltigkeit“ z.B. die Ausgabe:
„Nachhaltigkeit bedeutet, Ressourcen so zu nutzen, dass auch zukünftige Generationen davon profitieren.“
Das Modell verwendet dabei keine vorgefertigten Phrasen, sondern generiert Wort für Wort auf Basis der internen Wahrscheinlichkeitsverteilung.
Dieser modulare Aufbau – insbesondere die Self-Attention – erlaubt es Transformer-Modellen, auch in langen, komplexen Sätzen relevante Bezüge zu erkennen und kontextbewusst zu handeln. Das macht sie deutlich leistungsfähiger und flexibler als frühere sequentielle Modelle wie RNNs oder LSTMs.
Von Transformer zu LLMs und SLMs
Der Transformer ist die architektonische Grundlage für moderne Sprachmodelle. Mit steigender Rechenleistung und wachsender Verfügbarkeit großer Datenmengen wurden Transformer-Netzwerke auf Billionen von Token trainiert und zu sogenannten Sprachmodellen weiterentwickelt.
Was ist ein LLM (Large Language Model)?
Ein LLM ist ein auf Basis eines Transformers trainiertes Modell mit mehreren Milliarden (oder gar Billionen) Parametern. Diese Modelle wurden auf riesigen Textkorpora trainiert – darunter Bücher, Webseiten, Foren, Dokumentationen und Quellcode. Das Ziel: Ein tiefes Sprachverständnis entwickeln, das über einfaches Nachschlagen hinausgeht.
Ein LLM kann:
- Fragen beantworten
- Texte zusammenfassen
- Programmcode generieren
- Sprache übersetzen
- Stil und Kontext erfassen
Beispiele: GPT-4, Claude, Gemini, LLaMA 3
Und was ist ein SLM (Small Language Model)?
SLMs sind schlankere Modelle mit weniger Parametern (z.B. 1 bis 7 Milliarden), die sich besonders für den lokalen Einsatz auf Servern, Edge-Geräten oder Datenschutz-sensiblen Umgebungen eignen.
Trotz ihrer kleineren Größe bieten SLMs oft beachtliche Leistungen, insbesondere wenn sie auf spezifische Anwendungsfälle feinjustiert (‚fine-tuned‘) wurden.
Beispiele: Mistral 7B, Phi-3, Gemma
Gemeinsamkeiten beider Klassen:
- Beide verwenden Transformer-Architektur
- Beide basieren auf der Idee der Self-Attention
- Beide lassen sich vortrainieren und feinjustieren (Pretraining und Finetuning)
Die Wahl zwischen LLM und SLM ist daher keine Frage von „gut oder schlecht“, sondern von Kontext, Infrastruktur und Datenschutz.
Modelltyp | Bedeutung | Beispiele | Anwendung |
---|---|---|---|
LLM (Large Language Model) | Milliarden Parameter, umfassendes Sprachverständnis | GPT-4, Claude, LLaMA 3 | Kreative Texte, Code, Dialogsysteme |
SLM (Small Language Model) | Kompaktere Modelle, lokal einsetzbar | Phi-3, Mistral 7B | Datenschutzsensible Umgebungen, Edge-KI |
Relevanz für die Praxis
Transformer-Modelle sind längst nicht mehr nur ein Forschungsthema. Sie haben sich zu produktiv einsetzbaren Technologien entwickelt, die in verschiedensten Branchen konkreten Mehrwert stiften.
Im Unternehmenskontext:
- Kundenservice: Intelligente Chatbots übernehmen Routineanfragen, ermöglichen 24/7-Verfügbarkeit und entlasten Support-Teams
- Wissensmanagement: Interne LLMs durchsuchen Richtlinien, technische Dokumentationen und Betriebsanleitungen kontextbasiert und liefern schnelle Antworten
- Vertrieb und Marketing: Transformer-basierte Systeme generieren zielgruppenspezifische Texte, analysieren Stimmungen und erstellen automatisierte Marktanalysen
- Softwareentwicklung: KI-gestützte Entwicklungsumgebungen schlagen Code vor, erkennen Bugs oder dokumentieren automatisch
Im Bildungsbereich:
- Adaptives Lernen: Plattformen passen Inhalte dynamisch an das Lerntempo und -niveau der Teilnehmenden an
- KI-Tutoren: Transformer-Modelle beantworten Fachfragen, erklären Konzepte und unterstützen beim Üben von Aufgaben
- Evaluation: Automatische Textanalyse unterstützt Lehrkräfte bei der Bewertung freier Antworten oder Projektarbeiten
In der Praxis erlebbar:
Ein freiberuflicher Trainer kann etwa ein lokal installiertes SLM (wie Mistral 7B über Ollama) nutzen, um Seminarunterlagen dynamisch zu generieren, technische Begriffe erklären zu lassen oder Feedback-Analysen durchzuführen – DSGVO-konform und offline.
Fazit
Transformer-Modelle sind ein Meilenstein der modernen KI. Sie haben den Sprung von sequentieller Verarbeitung zu globalem Kontext gemacht – und damit Maschinen die Tür zum Sprachverständnis geöffnet. Ob in großen Cloud-Lösungen oder kompakten lokalen Modellen: Ohne Transformer geht heute nichts mehr.