In einem meiner letzten Blogbeitrag habe ich den Vergleich zwischen dem menschlichen Gehirn und künstlicher Intelligenz in den Mittelpunkt gestellt. Dabei standen Themen wie Energieeffizienz, Rechenkapazität und evolutionäre Entwicklung im Fokus. Heute möchte ich diesen Vergleich um eine weitere, zentrale Dimension erweitern: die Fähigkeit zur Generalisierung – oder genauer gesagt: das Scheitern daran.
Denn maschinelles Lernen ist dann am wertvollsten, wenn es gelingt, aus bekannten Daten Muster zu extrahieren, die auch auf unbekannte Situationen anwendbar sind. Zwei typische Fehlerquellen stehen diesem Ideal jedoch regelmäßig im Weg: Overfitting und Underfitting. Sie markieren die beiden Extreme auf dem schmalen Grat zwischen präziser Anpassung und sinnvoller Abstraktion.
Was ist Overfitting?
Overfitting – zu Deutsch etwa ‚Überanpassung‘ – tritt auf, wenn ein Modell die Trainingsdaten zu gut lernt. Es merkt sich gewissermaßen jeden Einzelfall, jede Besonderheit, jedes Rauschen – auf Kosten der Generalisierungsfähigkeit.
Ein Beispiel aus dem Alltag: Stellen Sie sich vor, eine Schülerin lernt für die Klassenarbeit exakt die Übungsaufgaben aus einem Lehrbuch auswendig. In der Prüfung werden dann jedoch leicht veränderte Fragestellungen verwendet – und plötzlich funktioniert das Gelernte nicht mehr. Das Modell – oder in diesem Fall: der Mensch – hat nicht den zugrunde liegenden Zusammenhang verstanden, sondern nur die Oberfläche nachgebildet.
In der KI passiert ähnliches: Ein Modell zeigt exzellente Ergebnisse auf den Trainingsdaten, versagt aber bei neuen, unbekannten Daten. Es hat sich zu sehr an das Gelernte festgebissen.
Typische Ursachen:
- Zu komplexe Modelle mit zu vielen Parametern
- Zu kleine oder unausgewogene Datensätze
- Zu langes Training ohne geeignete Kontrollmechanismen (z.B. Early Stopping)
- Fehlende Regularisierung
Was ist Underfitting?
Underfitting – oder ‚Unteranpassung‘ – ist das andere Extrem. Hier lernt das Modell nicht genug, um die relevanten Zusammenhänge in den Daten zu erkennen. Die Vorhersagen bleiben ungenau – selbst auf den Trainingsdaten.
Auch hier hilft der Blick auf menschliches Lernen: Ein Schüler, der vor einer Prüfung nur die Überschriften liest, aber nicht in die Inhalte eintaucht, wird in der Prüfung kaum bestehen – ihm fehlt das Fundament.
In der Praxis zeigt sich Underfitting häufig durch niedrige Genauigkeit, sowohl im Training als auch in der Validierung. Das Modell ist zu simpel oder zu schwach, um die Komplexität der Aufgabe zu bewältigen.
Typische Ursachen:
- Zu einfache Modellarchitektur
- Zu wenig Trainingszeit
- Relevante Merkmale fehlen in den Daten
- Zu starke Regularisierung

Exkurs: Lernkurven und Diagnostik – Überanpassung sichtbar machen
Bevor wir die Balance zwischen Overfitting und Underfitting im Modelltraining fundiert steuern können, müssen wir sie zunächst erkennen. Hier kommen sogenannte Lernkurven ins Spiel – ein zentrales Werkzeug der Modellentwicklung, das auf einen Blick zeigt, wie gut ein Modell lernt und wo es dabei möglicherweise scheitert.
Lernkurven visualisieren die Modellgüte (z.B. Fehler, Verlust oder Genauigkeit) über den Trainingsverlauf hinweg – typischerweise getrennt für Trainings- und Validierungsdaten. Sie liefern damit eine Art diagnostisches Frühwarnsystem für Over- oder Underfitting.
Typische Lernkurven-Verläufe
- Gesunde Lernkurve (gute Generalisierung): Der Trainingsfehler nimmt kontinuierlich ab, der Validierungsfehler sinkt ebenfalls und konvergiert auf ähnlichem Niveau. Das Modell generalisiert somit gut.
- Overfitting: Der Trainingsfehler sinkt stark ab, aber der Validierungsfehler stagniert oder steigt nach einer Weile wieder an. Das Modell passt sich zu stark an die Trainingsdaten an und verliert seine Generalisierungsfähigkeit.
- Underfitting: Beide Fehlerkurven bleiben hoch, ohne klare Verbesserung. Das Modell ist zu simpel oder hat zu wenig Trainingszeit – es erkennt keine relevanten Muster.
Was kann man aus Lernkurven ablesen?
- Zeitpunkt des Overfittings: Wenn der Validierungsfehler nach einem bestimmten Trainingszeitpunkt ansteigt, kann man mit Early Stopping genau hier abbrechen.
- Modellkomplexität: Flache Lernkurven deuten auf Underfitting hin – ein stärkeres Modell oder bessere Features wären nötig.
- Datenprobleme: Große Lücken zwischen Training und Validierung können auch auf inkonsistente oder verzerrte Validierungsdaten hinweisen.
Praktische Tipps
- Training vs. Validation immer getrennt plotten – idealerweise mit mehreren Wiederholungen (Cross-Validation).
- Metrik bewusst wählen: Bei Klassifikation z.B. Accuracy, Precision, F1 – bei Regression MAE, RMSE oder R².
- Skalierung beachten: Bei sehr großen Datensätzen oder Modellen helfen logarithmische Skalen, die Entwicklung sinnvoll abzubilden.
Tools und Umsetzung
- In Python:
matplotlib
,seaborn
,scikit-learn.learning_curve
- In TensorFlow / Keras:
Callback History
,TensorBoard
- In PyTorch: Eigene Logging-Mechanismen, z.B. mit
matplotlib
oderWandB
Lernkurven sind somit nicht nur ein diagnostisches Werkzeug, sondern auch ein didaktisches Instrument: Sie machen das Lernverhalten von KI-Modellen für Entwickler:innen transparent und ermöglichen eine fundierte Optimierung – bevor sich Überanpassung oder mangelnde Lernfähigkeit im Praxiseinsatz negativ auswirken.
Die Balance finden – das Spannungsfeld der Generalisierung
Die Kunst des maschinellen Lernens besteht darin, genau die richtige Komplexität zu wählen: So viel wie nötig, so wenig wie möglich. Diese Balance ist essenziell, um ein Modell zu entwickeln, das sowohl in der Lage ist, Zusammenhänge zu erkennen, als auch flexibel genug bleibt, um auf neue Situationen sinnvoll zu reagieren.
In der Praxis helfen Metriken wie der Validierungsfehler, Kreuzvalidierung oder spezielle Visualisierungen (Lernkurven), um diese Balance frühzeitig zu erkennen. Auch Techniken wie Regularisierung, Dropout oder das gezielte Einführen von Rauschen (Noise Injection) dienen der Steuerung dieses Gleichgewichts.
Der Bias-Variance-Trade-off: Das Fundament der Modellbewertung
Hinter Overfitting und Underfitting steht ein zentrales Konzept des maschinellen Lernens: der Bias-Variance-Trade-off.
- Bias (Verzerrung): Ein Modell mit hohem Bias macht starke Annahmen über die Datenstruktur. Es ist häufig zu einfach, um komplexe Muster zu erfassen – Underfitting ist die Folge.
- Variance (Varianz): Ein Modell mit hoher Varianz reagiert empfindlich auf kleine Schwankungen in den Trainingsdaten. Es passt sich zu stark an – Overfitting ist die Folge.
Ziel ist es, ein Modell mit geringer Gesamtfehlerquote zu entwickeln – also eine ausgewogene Balance zwischen Bias und Varianz zu finden. Dieses Gleichgewicht hängt stark von der Modellkomplexität, der Datenbasis und der Trainingsstrategie ab.
Der Bias-Variance-Trade-off ist damit nicht nur ein theoretisches Konzept, sondern eine praktische Navigationshilfe im Modellierungsprozess.
Praktische Techniken zur Vermeidung von Over- und Underfitting
Einige bewährte Verfahren helfen, die Balance zu halten:
- Cross-Validation: Besonders k-fold oder stratified k-fold Cross-Validation bieten robuste Einsichten in die Generalisierungsfähigkeit eines Modells.
- Early Stopping: Trainingsprozesse werden gestoppt, sobald sich die Validierungsleistung nicht mehr verbessert.
- Regularisierung: L1 (Lasso), L2 (Ridge), Dropout oder Weight Decay verhindern Überanpassung durch gezielte Einschränkungen der Modellfreiheit.
- Feature Engineering und Selektion: Relevante Merkmale verbessern die Aussagekraft, während überflüssige Features das Risiko von Overfitting erhöhen.
- Datenqualität und -vielfalt: Mehr ist nicht automatisch besser – aber gute Daten machen den Unterschied.
- Data Augmentation: Besonders bei Bild- oder Textdaten helfen künstlich erzeugte Varianten, die Varianz zu erhöhen und die Robustheit zu fördern.
Diese Maßnahmen sind nicht nur technische Stellschrauben, sondern Ausdruck einer bewussten Modellstrategie.

Deep Dive: Transfer Learning und Fine-Tuning – Vom Wissen zur Anpassung
Ein weiterer zentraler Aspekt im Spannungsfeld zwischen Overfitting und Underfitting ist der Umgang mit vortrainierten Modellen – insbesondere im Kontext von Transfer Learning und Fine-Tuning.
Transfer Learning bezeichnet die Wiederverwendung eines bereits auf umfangreichen Datensätzen trainierten Modells für eine neue, spezifischere Aufgabe. Anstatt ein Modell bei Null zu trainieren, wird auf bereits vorhandenes Wissen (repräsentiert durch Gewichte und Architekturen) zurückgegriffen.
Diese Strategie spart nicht nur Zeit und Rechenleistung, sondern ermöglicht insbesondere bei kleinen oder domänenspezifischen Datensätzen den Einsatz hochperformanter Modelle. Allerdings birgt sie ein besonderes Risiko: Overfitting durch unkontrolliertes Fine-Tuning.
Typische Stolperfallen im Fine-Tuning
- Kleine, eng definierte Datensätze führen dazu, dass das Modell seine generalisierten Muster verliert und sich zu stark an Details anpasst.
- Alle Schichten gleichzeitig trainieren kann tief verankerte, wertvolle Wissensrepräsentationen überschreiben.
- Zu hohe Lernraten beschleunigen die Überanpassung, bevor sich das Modell auf die neue Aufgabe sinnvoll einstellen kann.
Erfolgreiche Strategien
- Layer Freezing: Zunächst werden nur die letzten Schichten des Modells angepasst. Die frühen Schichten – oft für generelle Merkmalsextraktion verantwortlich – bleiben unangetastet.
- Differenzielle Lernraten: Frühere Layer erhalten geringere Lernraten, spätere höhere – so bleibt das Grundverständnis stabil, während Spezialisierungen möglich werden.
- Validierungsgetriebenes Feintuning: Ständiges Monitoring der Validierungsleistung und ggf. selektives Unfreezen einzelner Layer verhindert Überanpassung.
Praxisbezug
- In der Bildklassifikation (z.B. ResNet, EfficientNet) werden oft Modelle verwendet, die auf ImageNet vortrainiert wurden – das Fein-Tuning erfolgt auf domänenspezifischen Daten (z.B. medizinische Bildgebung).
- In der NLP-Welt (Natural Language Processing) ist Transfer Learning über Transformer-Architekturen (BERT, RoBERTa, GPT) Standard. Hier zeigen Studien, dass schon wenige Trainings-Epochen auf spezifischen Daten zu signifikantem Overfitting führen können, wenn keine geeigneten Maßnahmen ergriffen werden.
Fazit
Transfer Learning ist ein leistungsstarkes Werkzeug – aber nur dann, wenn es kontrolliert und mit Blick auf Modellstabilität durchgeführt wird. Gerade in sensiblen oder regulierten Bereichen (Medizin, Recht, Finanzen) ist ein durchdachtes Fine-Tuning entscheidend, um nicht die Generalisierungsfähigkeit des Basismodells zu opfern.
Overfitting in der Bildung – eine Fallbetrachtung
Die Analogie zwischen maschinellem und menschlichem Lernen lässt sich besonders anschaulich im Bildungskontext verdeutlichen – und sie ist weit mehr als ein rein metaphorischer Vergleich. Denn auch in schulischen und akademischen Lernprozessen zeigen sich Mechanismen, die stark an Overfitting und Underfitting erinnern.
Ein klassisches Beispiel für Overfitting im Bildungskontext ist das sogenannte Teaching to the Test: Schüler:innen lernen gezielt die Formate und Inhalte vergangener Prüfungen, ohne ein tiefes Verständnis für die dahinterliegenden Konzepte zu entwickeln. Das Ergebnis: In standardisierten Tests erzielen sie möglicherweise gute Ergebnisse, versagen aber bei Transferaufgaben oder offenen, problemorientierten Aufgabenstellungen. Genau wie ein überangepasstes KI-Modell fehlt ihnen die Fähigkeit zur Generalisierung.
Ein konkreter Fall: In einer Mathematikklausur werden regelmäßig Aufgaben mit dem gleichen Schema zur quadratischen Ergänzung gestellt. Ein Schüler, der dieses Schema mechanisch beherrscht, kann die Aufgabe lösen – scheitert aber, wenn dieselbe mathematische Idee in einer Sachaufgabe oder in einer Textaufgabe eingebettet ist. Das Wissen ist kontextabhängig und damit anfällig für Verformung – klassisches Overfitting.
Underfitting zeigt sich dagegen häufig in didaktisch schlecht strukturiertem Unterricht, bei dem Lernende zwar mit Begriffen konfrontiert werden, diese aber nicht vernetzen oder in einen sinnvollen Kontext setzen können. Typisch ist dies in überfrachteten Lehrplänen oder bei fehlender individueller Lernbegleitung.
Ein Beispiel: Im Biologieunterricht wird der Begriff Zellatmung genannt, aber nicht mit praktischen Beispielen, Experimenten oder Querverweisen zur Energiegewinnung verknüpft. Die Folge: Der Begriff bleibt leer, das Wissen oberflächlich – und bei der Anwendung scheitert der Transfer.
Die Konsequenz: Auch im Bildungswesen ist das Ziel nicht allein Wissensaneignung, sondern Verstehensorientierung. Formative Diagnostik, zielgerichtetes Feedback, vielfältige Aufgabenformate sowie reflexives Lernen tragen dazu bei, die Balance zwischen Überforderung und Unterforderung zu halten. Damit fördern sie die Fähigkeit zur Generalisierung – und damit genau jene Qualität, die auch ein gutes KI-Modell auszeichnet., formative Evaluation und vielfältige Aufgabenformate entscheidend, um die Generalisierungsfähigkeit – und damit echtes Verständnis – zu fördern.
Was sagen die großen Akteure?
Führende Unternehmen im Bereich künstlicher Intelligenz – darunter Anthropic, Google DeepMind, OpenAI und Meta AI – haben in den vergangenen Jahren wiederholt darauf hingewiesen, dass eine bloße Vergrößerung von Modellen oder Trainingsdaten nicht zwangsläufig zu besseren Ergebnissen führt. Vielmehr wächst mit der Skalierung das Risiko von Overfitting, insbesondere in datenarmen Spezialdomänen.
Einige Beispiele und Erkenntnisse im Überblick:
- Anthropic (Claude): Anthropic entwickelt seine Modelle explizit nach dem Prinzip der Constitutional AI – ein Ansatz, bei dem KI-Systeme ethisch vorgeprägte Regeln lernen sollen, ohne sich zu eng an Trainingsbeispiele zu binden. Damit wird dem Overfitting auf moralisch fragwürdige oder gesellschaftlich polarisierende Inhalte vorgebeugt.
- Google DeepMind (Gato, Gemini): DeepMind verfolgt zunehmend multimodale Ansätze, um Generalisierungsfähigkeit durch domänenübergreifendes Training zu verbessern. In Googles Gemini-Programm wurde nachgewiesen, dass Modelle, die sowohl visuelle als auch sprachliche Daten verarbeiten, in Summe robuster gegenüber Overfitting sind. Zudem setzen sie auf Techniken wie Reinforcement Learning from Human Feedback (RLHF), um eine übermäßige Anpassung an Trainingsdaten zu verhindern.
- OpenAI (GPT-4): In der Veröffentlichung zu GPT-4 wird betont, dass trotz Billionen von Parametern ein erheblicher Teil des Erfolgs auf eine gezielte Trainingsarchitektur, präzise Regularisierung und die Auswahl qualitativ hochwertiger Daten zurückzuführen ist. OpenAI nutzt beispielsweise ein Multi-Objective Training, bei dem verschiedene Aufgabenformate und Domänen balanciert werden, um eine Überanpassung an spezifische Textmuster zu vermeiden.
- Meta AI (LLaMA-Serie): Meta hat bei der Entwicklung der LLaMA-Modelle (Large Language Model Meta AI) bewusst auf kleinere, effizient trainierbare Architekturen gesetzt. In internen Benchmarks wurde gezeigt, dass Modelle mit 7 bis 13 Milliarden Parametern bei gezielter Datenkuratierung eine ähnlich hohe Performance wie sehr große Modelle erzielen – mit reduziertem Overfitting-Risiko.
Gemeinsamer Nenner dieser Strategien:
- Datenauswahl ist wichtiger als Datenmenge
- Modellarchitektur und Trainingsregime sind entscheidend für die Balance zwischen Präzision und Generalisierung
- Transparente Evaluation und fortlaufendes Monitoring (z.B. durch Promptleakage-Tests oder adversarial Beispiele) sind feste Bestandteile der Entwicklungsprozesse
Diese Einsichten stammen nicht nur aus Laborbedingungen, sondern spiegeln konkrete Erfahrungen bei der Skalierung produktiver KI-Systeme wider. Gerade im Hinblick auf kommerzielle Anwendungen ist die Vermeidung von Overfitting kein akademisches Ideal, sondern eine wirtschaftliche und ethische Notwendigkeit. Auch bei LLMs wie GPT-4 oder Gemini ist das Risiko von Overfitting real – vor allem in Spezialbereichen mit wenig Daten.

Exkurs: Gesellschaftliche, ethische und strukturelle Dimensionen von Overfitting
Overfitting ist nicht nur ein technisches Problem, sondern kann auch gesellschaftliche Auswirkungen haben – insbesondere dann, wenn KI-Systeme zur Entscheidungsunterstützung in sensiblen Bereichen wie Medizin, Justiz oder Personalwesen eingesetzt werden.
Beispiel 1: Ein Algorithmus, der auf historischen Personaldaten trainiert wurde, kann ungewollt diskriminierende Muster verstärken – etwa bei der Auswahl von Bewerber:innen. Das Modell hat dann gelernt, was war, nicht was richtig wäre. Es reproduziert strukturelle Verzerrungen – ein klassischer Fall von Overfitting auf historische Voreingenommenheit.
Auch in personalisierten Empfehlungssystemen (z.B. Social Media) führt Overfitting dazu, dass Nutzende nur noch Inhalte sehen, die ihrem bisherigen Verhalten entsprechen – sogenannte Filterblasen entstehen. Dies kann die Meinungsvielfalt einschränken und gesellschaftliche Polarisierung verstärken.
Doch das strukturelle Risiko von Overfitting reicht über individuelle Verzerrungen hinaus: Es kann bestehende gesellschaftliche Ungleichheiten ungewollt stabilisieren oder sogar verstärken. In vielen Fällen entsteht ein sogenannter Feedback Loop, bei dem durch Entscheidungen der KI wiederum neue Daten generiert werden, die das ursprüngliche Verzerrungsmuster erneut bestätigen.
Beispiel 2: Wird eine KI in der Strafverfolgung eingesetzt, die auf historischen Daten trainiert wurde, kann sie aufgrund historischer Überwachung bestimmter Bevölkerungsgruppen überproportional häufig Straftaten in diesen Gruppen prognostizieren – nicht, weil sie tatsächliche Kriminalität besser erkennt, sondern weil sie strukturelle Voreingenommenheit im Trainingsdatensatz unreflektiert übernimmt.
Auch in der medizinischen Forschung ist bekannt: Modelle, die primär auf Daten weißer, männlicher Patienten trainiert wurden, liefern signifikant schlechtere Ergebnisse für andere Bevölkerungsgruppen. Das Modell ist überangepasst an eine dominante Perspektive – und somit blind für die Vielfalt realer Gesundheitsbilder.
Die verantwortungsvolle Entwicklung von KI-Systemen muss daher stets auch die Frage einbeziehen: Lernt das System tatsächlich das Richtige – für wen, in welchem Kontext – und mit welchen gesellschaftlichen Folgen?
Der Mensch im Vergleich
Auch wir Menschen sind nicht gefeit vor den Prinzipien von Overfitting und Underfitting – wenngleich sie sich bei uns anders manifestieren. Lernpsychologisch betrachtet sind diese Phänomene eng mit oberflächenorientiertem versus tiefenorientiertem Lernen verknüpft:
- Ein Mensch, der isolierte Fakten auswendig lernt, ohne sie in einen inhaltlichen Zusammenhang zu bringen, neigt zum Overfitting: Er kann Gelerntes nur im ursprünglichen Kontext wiedergeben, versagt aber bei Transferaufgaben oder neuen Fragestellungen.
- Umgekehrt führt ein zu flaches, unkonzentriertes oder ablenkungsreiches Lernen häufig zu Underfitting: Es bleiben keine stabilen Wissensrepräsentationen zurück – das Gelernte wird weder behalten noch angewendet.
Unser Gehirn begegnet diesen Risiken mit evolutionär gewachsenen Mechanismen:
- Abstraktion durch Kontextbildung: Menschen sind in der Lage, Regeln und Prinzipien aus Erfahrung abzuleiten – auch wenn diese nie explizit genannt wurden.
- Fehlerkultur und Feedbackverarbeitung: Anders als viele maschinelle Systeme lernen Menschen aktiv aus Fehlern – und passen ihre mentalen Modelle flexibel an.
- Metakognition: Menschen reflektieren über ihren eigenen Lernprozess. Wer erkennt, dass er ein Konzept noch nicht verstanden hat, kann gezielt nachlernen – eine Fähigkeit, die in KI-Systemen bislang nur ansatzweise umgesetzt wird.
Diese Fähigkeiten ermöglichen es dem menschlichen Gehirn, Generalisierung und Kontextualisierung deutlich effizienter und robuster zu bewältigen – vor allem in offenen, unstrukturierten Umgebungen. Gerade hier haben heutige KI-Modelle ihre größten Defizite.
Fazit: Lernen ist nicht das Ziel – Verstehen ist es
Overfitting und Underfitting sind mehr als nur technische Herausforderungen – sie verweisen auf ein fundamentales Prinzip erfolgreichen Lernens: Verallgemeinerung mit Maß.
Ein gutes Modell – ob künstlich oder biologisch – erkennt Muster, abstrahiert sinnvoll und ist robust gegenüber Veränderungen. Die Balance aus Präzision und Flexibilität ist dabei der Schlüssel.
Oder um es im Sinn der Bloom’sche Taxonomie zu formulieren: „Wissen ist der Anfang, aber erst das Verstehen macht es anwendbar.“