Warum KI neue Netzwerke braucht – Wie Ethernet, Spine-Leaf und GPU-Fabrics Rechenzentren verändern

13. Juni 2026

Wenn künstliche Intelligenz das Netzwerk zum Flaschenhals macht

Im ersten Teil dieser Blogserie stand die Frage im Mittelpunkt, warum moderne Unternehmensnetzwerke zunehmend intelligenter werden müssen. Wi-Fi 7, identitätsbasierte Sicherheit, Segmentierung und KI-gestützte Netzwerkbetriebsmodelle zeigen bereits heute, wie stark sich klassische Infrastruktur verändert. Doch vieles von dem, was in Enterprise-Netzwerken gerade erst sichtbar wird, eskaliert in Rechenzentren bereits in völlig neuen Dimensionen.

Denn künstliche Intelligenz verändert nicht nur die Art, wie Netzwerke betrieben werden. Sie verändert zunehmend auch die Anforderungen an die Infrastruktur selbst.

Lange Zeit galt Rechenleistung als zentrale Währung digitaler Innovation. Mehr CPU-Kerne, leistungsfähigere Prozessoren und später hochspezialisierte GPUs galten als entscheidender Hebel, um komplexere Anwendungen auszuführen und größere Datenmengen zu verarbeiten. Gerade der aktuelle KI-Boom scheint diese Annahme zunächst zu bestätigen: Unternehmen investieren Milliarden in GPU-Cluster, Hyperscaler bauen neue Rechenzentren, und Hersteller überbieten sich gegenseitig mit immer leistungsfähigeren Beschleunigern.

Auf den ersten Blick wirkt die Schlussfolgerung plausibel: Mehr Rechenleistung erzeugt bessere künstliche Intelligenz. In der Praxis greift diese Betrachtung jedoch deutlich zu kurz.

Rechenleistung allein löst das Problem nicht

Moderne KI-Modelle entstehen nur selten auf einem einzelnen System. Bereits das Training mittelgroßer Sprachmodelle verteilt Rechenlast über viele GPUs hinweg. Bei großen Modellen arbeiten häufig Tausende spezialisierter Beschleuniger parallel zusammen. Diese Systeme müssen Trainingsdaten austauschen, Zwischenstände synchronisieren und Berechnungsergebnisse permanent miteinander abgleichen. Genau an dieser Stelle entsteht eine Herausforderung, die lange unterschätzt wurde: Kommunikation.

Je größer ein KI-Modell wird, desto stärker verschiebt sich der Engpass von reiner Rechenleistung hin zur Geschwindigkeit und Qualität des Datenaustauschs zwischen den beteiligten Systemen. Selbst die schnellste GPU verliert massiv an Effizienz, wenn sie auf Daten warten muss oder Synchronisationsprozesse ins Stocken geraten.

Vereinfacht formuliert: Nicht die langsamste GPU bestimmt zwangsläufig die Gesamtleistung eines KI-Clusters – sondern häufig das langsamste Netzwerksegment.

Dieser Zusammenhang verändert die Perspektive auf moderne Infrastruktur grundlegend. Denn plötzlich entscheidet nicht mehr ausschließlich die Leistungsfähigkeit einzelner Server über den Erfolg einer Plattform, sondern die Fähigkeit des gesamten Systems, Daten schnell, verlustarm und möglichst latenzarm zwischen Tausenden Komponenten zu transportieren.

Warum Netzwerke plötzlich strategisch werden

Klassische Unternehmensnetzwerke wurden über viele Jahre primär für sogenannte Nord-Süd-Kommunikation optimiert. Benutzer:innen griffen auf Anwendungen zu, Daten flossen von Clients zu Servern und wieder zurück. Zwar stiegen die Bandbreiten kontinuierlich, doch die grundlegende Kommunikationslogik blieb vergleichsweise stabil. KI verändert dieses Muster fundamental.

In modernen KI-Rechenzentren dominiert nicht mehr der Verkehr zwischen Benutzer:innen und Anwendungen. Stattdessen kommunizieren Systeme zunehmend untereinander: GPU mit GPU, Storage mit Compute, Server mit Server. Netzwerkverkehr verläuft damit immer häufiger horizontal innerhalb der Infrastruktur – ein Muster, das häufig als East-West-Traffic bezeichnet wird.

Diese Entwicklung hat weitreichende Folgen. Denn klassische Datacenter-Netzwerke wurden ursprünglich nicht für Tausende parallel kommunizierende Systeme mit extrem niedrigen Latenzanforderungen entworfen. Was in traditionellen Umgebungen noch ausreichend funktioniert, entwickelt sich unter KI-Last schnell zum Engpass. Die Folge: Netzwerke werden plötzlich zu einem strategischen Wettbewerbsfaktor.

Nicht nur Rechenleistung entscheidet künftig darüber, wie leistungsfähig eine KI-Infrastruktur tatsächlich ist. Ebenso wichtig wird die Frage, wie effizient Daten zwischen GPUs, Speichersystemen und Rechenknoten transportiert werden können. Genau deshalb geraten Netzwerkarchitekturen derzeit erneut in den Fokus von Hyperscalern, Hardwareherstellern und Unternehmensrechenzentren.

Damit stellt sich eine zentrale Frage, die den weiteren Verlauf dieses Beitrags prägen wird: Warum reichen klassische Datacenter-Netzwerke für künstliche Intelligenz plötzlich nicht mehr aus?

Wenn Rechenleistung nicht mehr reicht – Warum KI neue Netzwerke erzwingt

Auf den ersten Blick scheint die Antwort auf steigende Anforderungen künstlicher Intelligenz einfach zu sein: mehr Rechenleistung. Leistungsfähigere GPUs, größere Cluster und spezialisierte KI-Beschleuniger dominieren seit Jahren die Diskussion um moderne Infrastruktur. Gerade angesichts milliardenschwerer Investitionen von Unternehmen wie Microsoft, NVIDIA, Meta oder OpenAI liegt die Vermutung nahe, dass der Schlüssel leistungsfähiger KI primär in immer mehr Compute-Leistung liegt.

Diese Sichtweise greift jedoch zu kurz. Denn moderne KI skaliert nicht unbegrenzt durch zusätzliche Rechenleistung. Ab einer bestimmten Größenordnung verschiebt sich der eigentliche Engpass: Nicht mehr die einzelne GPU limitiert die Leistung eines Systems, sondern die Fähigkeit vieler Systeme, effizient zusammenzuarbeiten.

Diesen Zusammenhang habe ich bereits im Beitrag Über KI, das Wachstum und warum es (wahrscheinlich) nicht ewig so weiter geht näher betrachtet. Dort stand vor allem die Frage im Mittelpunkt, warum exponentielles Wachstum in der KI nicht beliebig fortgeschrieben werden kann – unter anderem aufgrund steigender Energie-, Speicher- und Infrastrukturkosten. Eine zentrale Erkenntnis lautet dabei: Zusätzliche Rechenleistung erzeugt nicht automatisch linearen Fortschritt. Ab einer bestimmten Größenordnung werden Skalierungsverluste zunehmend sichtbar.

Genau an dieser Stelle rückt die Netzwerkinfrastruktur in den Fokus. Denn moderne KI skaliert nicht allein über leistungsfähigere Hardware, sondern vor allem über die Fähigkeit vieler Systeme, Berechnungen effizient zu koordinieren und enorme Datenmengen nahezu verzögerungsfrei auszutauschen.

Oder vereinfacht formuliert: Mehr GPUs bedeuten nicht automatisch mehr KI-Leistung. Entscheidend wird vielmehr die Frage: Wie schnell können diese Systeme miteinander kommunizieren?

Warum einzelne Hochleistungs-GPUs nicht mehr ausreichen

Frühe Machine-Learning-Modelle ließen sich häufig noch auf einzelnen Servern trainieren. Mit dem Aufstieg generativer KI und großer Sprachmodelle hat sich diese Realität jedoch grundlegend verändert. Moderne Modelle bestehen heute aus Milliarden oder sogar Billionen Parametern und überschreiten längst die Speicher- und Rechengrenzen einzelner Systeme. Ein aktuelles Sprachmodell passt daher in vielen Fällen nicht mehr auf eine einzelne GPU – teilweise nicht einmal auf einen einzelnen Server.

Stattdessen werden Rechenaufgaben über zahlreiche Beschleuniger verteilt. Dabei arbeiten viele GPUs parallel an unterschiedlichen Teilen derselben Berechnung. Die eigentliche Herausforderung besteht nicht nur darin, diese Arbeit aufzuteilen, sondern die Ergebnisse anschließend wieder effizient zusammenzuführen.

Genau an diesem Punkt beginnt die Netzwerkinfrastruktur eine zentrale Rolle einzunehmen. Denn jede zusätzliche GPU erhöht nicht nur die verfügbare Rechenleistung – sie erhöht gleichzeitig die Kommunikationskomplexität.

Warum KI-Netzwerke grundlegend anders funktionieren

Klassische Unternehmensanwendungen reagieren meist tolerant auf geringe Verzögerungen. Ob eine Dateiübertragung einige Millisekunden länger dauert oder eine Webanwendung minimal verzögert antwortet, bleibt häufig unkritisch. KI-Workloads funktionieren dagegen deutlich sensibler.

Der Grund liegt in ihrer hochgradig parallelen Arbeitsweise: Beim Training großer Modelle arbeiten zahlreiche Systeme synchron zusammen. Ergebnisse einzelner Berechnungsschritte müssen fortlaufend abgeglichen werden, damit alle GPUs denselben Wissensstand besitzen. Bleibt ein Knoten zurück, entstehen Wartezeiten im gesamten Verbund.

In modernen KI-Clustern dominieren dabei mehrere Parallelisierungsverfahren:

Datenparallelisierung (Data Parallelism): Mehrere GPUs verarbeiten unterschiedliche Datenbereiche gleichzeitig und synchronisieren anschließend ihre Ergebnisse
Modellparallelisierung (Model Parallelism): Ein Modell wird auf mehrere Systeme aufgeteilt, weil einzelne GPUs allein nicht ausreichend Speicher oder Rechenleistung bereitstellen
Pipeline-Parallelisierung: Berechnungsschritte werden wie eine Fertigungskette auf verschiedene Systeme verteilt

Gemeinsam haben alle Verfahren eine zentrale Eigenschaft: Sie erzeugen enorme Mengen an Kommunikationsverkehr zwischen den beteiligten Systemen. Die Folge: Netzwerkverkehr entwickelt sich zunehmend vom Nebenschauplatz zum kritischen Erfolgsfaktor.

Das eigentliche Problem: Kommunikation statt Compute

Je größer KI-Modelle werden, desto häufiger müssen Systeme Daten austauschen. Trainingsparameter, Gewichte, Gradienten und Zwischenergebnisse werden permanent zwischen GPUs synchronisiert. Dieser Austausch erfolgt nicht gelegentlich, sondern millionenfach während eines einzelnen Trainingsprozesses.

Damit verändert sich die Rolle des Netzwerks fundamental. War Netzwerkkommunikation früher primär Transportmedium zwischen Benutzer:innen und Anwendungen, wird sie in KI-Rechenzentren zunehmend zur Grundlage der eigentlichen Berechnung.

Die technische Herausforderung liegt dabei weniger in maximaler Bandbreite allein. Entscheidend wird vielmehr, wie zuverlässig und vorhersehbar Daten transportiert werden können. Schon geringe Paketverluste, Staus oder unerwartete Latenzen können die Effizienz eines gesamten GPU-Clusters erheblich reduzieren.

Ein oft unterschätzter Zusammenhang lautet deshalb: Die schnellste GPU nützt wenig, wenn Tausende Beschleuniger aufeinander warten müssen.

Genau aus diesem Grund geraten Netzwerkarchitekturen derzeit wieder ins Zentrum der Infrastrukturplanung. Denn moderne KI verlangt nicht nur nach mehr Rechenleistung – sie erzwingt völlig neue Anforderungen an Kommunikation, Skalierung und Netzwerkdesign.

Im nächsten Kapitel stellt sich deshalb eine grundlegende Frage: Warum stoßen klassische Datacenter-Netzwerke ausgerechnet bei künstlicher Intelligenz plötzlich an ihre Grenzen?

Exkurs: Warum ein langsames Netzwerk Milliardeninvestitionen in GPUs ausbremsen kann

Auf den ersten Blick scheint die Rechnung moderner KI-Infrastruktur einfach: Mehr GPUs erzeugen mehr Leistung. Warum also nicht einfach immer größere GPU-Cluster bauen?

Die Antwort liegt in einem Problem, das in klassischen Infrastrukturbetrachtungen lange unterschätzt wurde: Rechenleistung skaliert nur dann effizient, wenn Kommunikation mithalten kann.

Gerade bei großen Sprachmodellen arbeiten heute häufig Tausende GPUs parallel zusammen. Jede GPU verarbeitet unterschiedliche Teile eines Trainingslaufs, berechnet Modellparameter oder analysiert Trainingsdaten. Damit das Gesamtsystem konsistent bleibt, müssen Zwischenergebnisse fortlaufend synchronisiert werden.

Und genau an dieser Stelle beginnt das eigentliche Problem. Denn in verteilten Trainingsumgebungen gilt häufig ein einfaches Prinzip: Der nächste Berechnungsschritt startet erst, wenn alle Beteiligten bereit sind.

Wenn Tausende GPUs aufeinander warten

Ein vereinfachtes Beispiel verdeutlicht die Problematik: Angenommen, ein KI-Cluster besteht aus 4.000 GPUs, die gemeinsam ein großes Sprachmodell trainieren.

Die überwiegende Mehrheit der Systeme arbeitet hochperformant. Doch einige wenige Kommunikationspfade geraten unter Last. Paketlaufzeiten steigen leicht an, einzelne Datenströme verzögern sich oder Netzwerkpfade reagieren uneinheitlich.

Für klassische Anwendungen bliebe dies häufig unkritisch. In hochgradig synchronisierten KI-Workloads entsteht dagegen ein Kaskadeneffekt.

Denn selbst wenn 3.990 GPUs bereits fertig gerechnet haben, kann der nächste Trainingsschritt häufig erst beginnen, wenn auch die verbleibenden Systeme ihre Ergebnisse geliefert haben.

Die Folge: Tausende Hochleistungsbeschleuniger warten – nicht auf Compute, sondern auf Kommunikation.

In der Fachliteratur wird dieses Verhalten häufig als Straggler-Effekt beschrieben – vereinfacht gesprochen das Nachzügler-Prinzip verteilter Systeme. Gemeint ist damit ein grundlegendes Problem hochgradig paralleler Rechenumgebungen: Die Gesamtgeschwindigkeit eines Systems wird häufig durch den langsamsten Teilnehmer bestimmt.

In KI-Clustern können solche Nachzügler aus unterschiedlichen Gründen entstehen. Einzelne GPUs benötigen länger für Berechnungen, Netzwerkpfade geraten kurzfristig unter Last oder Kommunikationsverzögerungen führen dazu, dass Ergebnisse verspätet eintreffen.

Gerade bei synchronisierten Trainingsverfahren wirkt sich dies unmittelbar auf die Gesamtleistung aus. Denn häufig kann der nächste Trainingsschritt erst beginnen, wenn alle beteiligten Systeme ihren aktuellen Berechnungszyklus abgeschlossen haben. Selbst wenn der Großteil eines GPU-Clusters bereits fertig ist, genügt ein kleiner Teil langsamerer Systeme, um den gesamten Fortschritt zu verzögern.

Das Problem verstärkt sich mit wachsender Skalierung. Je größer Cluster werden und je mehr Systeme parallel zusammenarbeiten, desto wahrscheinlicher werden einzelne Verzögerungen. Was in kleineren Umgebungen kaum auffällt, entwickelt sich in großen AI-Fabrics schnell zum strukturellen Effizienzproblem.

Oder vereinfacht formuliert: Nicht die durchschnittliche Geschwindigkeit entscheidet – sondern wie gut ein System mit seinen Nachzüglern umgehen kann.

Warum selbst kleine Verzögerungen teuer werden

Gerade moderne KI-Infrastruktur bewegt sich in enormen Größenordnungen. Einzelne High-End-GPUs kosten schnell mehrere zehntausend Euro pro Einheit. Große KI-Rechenzentren investieren Milliardenbeträge in Compute-Infrastruktur, Energieversorgung und Kühlung.

Unter diesen Bedingungen werden selbst kleine Ineffizienzen wirtschaftlich relevant. Sinkt die tatsächliche GPU-Auslastung durch Kommunikationsprobleme nur geringfügig, kann dies bereits enorme Auswirkungen auf Trainingsdauer, Stromverbrauch und Infrastrukturkosten haben. Oder anders formuliert: Ein ineffizientes Netzwerk kann Milliardeninvestitionen in Hardware teilweise neutralisieren.

Deshalb betrachten moderne Hyperscaler Netzwerke längst nicht mehr nur als Transportmedium. Sie werden zunehmend als strategische Rechenressource verstanden. Denn die eigentliche Herausforderung lautet heute nicht mehr: Wie viele GPUs stehen zur Verfügung?, sondern vielmehr: Wie effizient können Tausende GPUs gleichzeitig zusammenarbeiten?

Genau diese Entwicklung verändert die Architektur moderner Rechenzentren fundamental – und erklärt, warum Netzwerkkommunikation heute zunehmend zum kritischen Erfolgsfaktor künstlicher Intelligenz wird.

Vom Nord-Süd-Datacenter zur East-West-Explosion

Wer verstehen möchte, warum künstliche Intelligenz neue Netzwerkarchitekturen erzwingt, muss zunächst eine grundlegende Veränderung moderner Rechenzentren verstehen: den Wandel der Kommunikationsmuster.

Über viele Jahre folgte Netzwerkverkehr in Rechenzentren einem vergleichsweise einfachen Prinzip. Benutzer:innen griffen auf Anwendungen zu, Anwendungen kommunizierten mit Servern, und Ergebnisse wurden zurückgeliefert. Daten bewegten sich überwiegend zwischen Endgeräten und zentralen Systemen. In der Netzwerktechnik wird dieses Muster häufig als Nord-Süd-Verkehr (North-South Traffic) bezeichnet.

Mit dem Aufstieg künstlicher Intelligenz verschiebt sich dieses Kommunikationsmodell jedoch fundamental. Denn moderne KI erzeugt deutlich weniger Verkehr zwischen Benutzer:innen und Anwendungen – stattdessen kommunizieren Systeme zunehmend untereinander.

GPU mit GPU
Server mit Server
Storage mit Compute

Das Netzwerk verändert damit seine Rolle: vom reinen Transportweg hin zur Grundlage verteilter Rechenprozesse.

Früher: Warum klassische Datacenter auf Nord-Süd-Kommunikation ausgelegt waren

Traditionelle Unternehmensrechenzentren entstanden in einer Zeit, in der Anwendungen überwiegend zentral betrieben wurden. Benutzer:innen griffen auf E-Mail-Systeme, Datenbanken oder Fachanwendungen zu, während Server primär auf eingehende Anfragen reagierten.

Netzwerkdesigns orientierten sich entsprechend an einem hierarchischen Kommunikationsmodell.

Das über viele Jahre dominierende Datacenter-Design bestand aus drei Ebenen:

Access Layer: Anschluss von Servern und Endsystemen
Aggregation Layer: Bündelung und Richtlinienkontrolle
Core Layer: Hochperformanter Transport zwischen Netzwerksegmenten

Infografik zur klassischen Nord-Süd-Kommunikation in Rechenzentren. Die Darstellung zeigt ein hierarchisches Three-Tier-Netzwerk mit Access-, Aggregation- und Core-Layer, durch das Datenverkehr vertikal zwischen Benutzergeräten und zentralen Anwendungen fließt. Pfeile visualisieren den Weg von Endgeräten zu Servern und zurück innerhalb eines klassischen Datacenter-Designs.

Dieses Modell – häufig auch als klassisches Three-Tier-Design bezeichnet – funktionierte lange Zeit sehr zuverlässig. Der Datenverkehr verlief überwiegend vertikal: von Endgeräten zu Anwendungen und zurück.

Das zentrale Ziel lautete: Daten möglichst effizient zu zentralen Diensten transportieren. Für klassische Business-Anwendungen war diese Architektur über Jahrzehnte vollkommen ausreichend.

Heute: Warum KI den Verkehr im Rechenzentrum grundlegend verändert

Künstliche Intelligenz verändert diese Logik jedoch radikal: Beim Training großer Modelle kommunizieren Systeme permanent miteinander. GPUs tauschen Zwischenergebnisse aus, synchronisieren Parameterstände und koordinieren Berechnungsschritte in hochgradig parallelen Workloads.

Der dominierende Datenverkehr verläuft deshalb nicht mehr vertikal, sondern horizontal innerhalb des Rechenzentrums. Dieser horizontale Verkehr wird als East-West-Traffic bezeichnet.

Infografik zu East-West-Traffic in KI-Rechenzentren. Die Darstellung zeigt einen GPU-Cluster im Datacenter, der über leistungsstarke Netzwerkverbindungen horizontal Daten austauscht. Visualisiert werden GPU-Synchronisation, Speichersysteme, KI-Pipelines und Inferenzsysteme sowie die Auswirkungen von Latenzen auf Leistung und Skalierbarkeit von KI-Workloads.

Im KI-Kontext entstehen dabei enorme Datenströme:

GPU-Cluster synchronisieren Trainingszustände
Speichersysteme liefern kontinuierlich Trainingsdaten
AI-Pipelines bewegen Daten zwischen verschiedenen Verarbeitungsschritten
verteilte Inferenzsysteme koordinieren Ergebnisse

Das Netzwerk transportiert damit nicht länger nur Daten zu Anwendungen. Es wird selbst zum entscheidenden Bestandteil der Berechnung.

Gerade bei großen Sprachmodellen können bereits geringe Verzögerungen dazu führen, dass ganze GPU-Verbünde aufeinander warten müssen. Die Folge sind Effizienzverluste, die angesichts milliardenschwerer Hardwareinvestitionen erhebliche wirtschaftliche Auswirkungen haben.

Dabei geht es längst nicht nur um höhere Infrastrukturkosten. Denn ineffiziente Trainingsprozesse bedeuten zugleich steigenden Energieverbrauch, längere Laufzeiten und eine schlechtere Auslastung ohnehin ressourcenintensiver Rechenzentren. Bereits geringe Kommunikationsverluste können dazu führen, dass enorme Mengen elektrischer Energie auf Systeme entfallen, die in bestimmten Momenten schlicht aufeinander warten.

Welche ökologischen Folgen der rapide Ausbau künstlicher Intelligenz bereits heute verursacht, habe ich im Beitrag KI unter Strom – Der ökologische Fußabdruck intelligenter Systeme näher beleuchtet. Gerade im Kontext großer KI-Cluster zeigt sich: Effizienz ist nicht nur eine wirtschaftliche, sondern zunehmend auch eine ökologische Frage.

Damit verändert sich die Perspektive auf Netzwerke erneut. Eine leistungsfähige Infrastruktur entscheidet künftig nicht nur über Geschwindigkeit – sondern auch darüber, wie effizient Energie, Hardware und Rechenzeit tatsächlich genutzt werden können.

Warum klassische Datacenter-Architekturen plötzlich an Grenzen stoßen

Genau hier zeigt sich ein Problem klassischer Drei-Schichten-Netzwerke. Sie wurden ursprünglich für Kommunikationsmuster entworfen, bei denen vergleichsweise wenig Verkehr zwischen Servern selbst stattfand. Moderne KI-Workloads erzeugen dagegen enorme Mengen an horizontalem Datenaustausch – oft gleichzeitig zwischen Tausenden Systemen.

Dadurch entstehen mehrere Herausforderungen:

Bottlenecks: Bestimmte Netzwerkpfade werden überlastet
Oversubscription: Mehr Systeme teilen sich dieselben Netzwerkressourcen, wodurch Engpässe entstehen
Unvorhersehbare Latenzen: Datenpakete benötigen unterschiedlich lange Wege durch die Infrastruktur

Für klassische Unternehmensanwendungen mag dies tolerierbar erscheinen. KI-Workloads reagieren dagegen äußerst empfindlich auf Verzögerungen. Bereits einzelne langsamere Kommunikationspfade können ganze Trainingsprozesse ausbremsen.

Vereinfacht formuliert: KI skaliert nicht nur über Rechenleistung – sondern über die Fähigkeit eines Netzwerks, viele Systeme gleichzeitig effizient miteinander kommunizieren zu lassen.

Genau deshalb entstanden neue Netzwerkarchitekturen, die speziell für hochgradig parallele Workloads entwickelt wurden. Und damit beginnt die Geschichte von Spine-Leaf-Netzwerken.

Exkurs: Netzwerkmodelle im Wandel – Von Hierarchie zu Spine-Leaf

Moderne KI-Rechenzentren wirken auf den ersten Blick wie eine völlig neue Infrastrukturwelt. Tatsächlich beruhen viele ihrer Grundprinzipien jedoch auf einer jahrzehntelangen Evolution von Netzwerkarchitekturen.

Wer verstehen möchte, warum heutige AI-Fabrics anders aufgebaut sind als klassische Unternehmensnetze, muss zunächst einen Blick zurückwerfen. Denn moderne Spine-Leaf-Netzwerke entstanden nicht zufällig – sondern als direkte Antwort auf die Grenzen traditioneller Rechenzentrumsarchitekturen.

Das klassische Drei-Schichten-Modell: Ordnung durch Hierarchie

Über viele Jahre dominierte in Rechenzentren das klassische Drei-Schichten-Modell (Three-Tier Architecture), das insbesondere durch Cisco-Netzwerkdesigns geprägt wurde. Die Architektur folgte einer klaren Hierarchie aus Access Layer, Aggregation Layer und Core Layer.

Während der Access Layer den Anschluss von Servern und Endsystemen übernahm, bündelte der Aggregation Layer Datenverkehr, Richtlinien und Segmentierung. Der Core Layer fungierte schließlich als performanter Backbone für die Kommunikation zwischen unterschiedlichen Netzwerkbereichen.

Dieses Modell erwies sich über Jahrzehnte als äußerst erfolgreich. Seine Stärke lag vor allem in der klaren hierarchischen Struktur, die Netzwerke übersichtlich und gut planbar machte. Fehler ließen sich vergleichsweise einfach eingrenzen, Sicherheitszonen kontrolliert definieren und Infrastrukturen schrittweise erweitern, ohne die Gesamtarchitektur grundlegend verändern zu müssen.

Vor allem für klassische Unternehmensanwendungen erwies sich dieser Ansatz als robust und effizient. Netzwerkverkehr verlief überwiegend vertikal: Benutzer:innen griffen auf Anwendungen zu, Anwendungen kommunizierten mit Servern und Ergebnisse wurden zurückgeliefert.

Dieses dominante Kommunikationsmuster wird in der Netzwerktechnik häufig als Nord-Süd-Verkehr (North-South Traffic) bezeichnet. Solange Anwendungen primär zentral betrieben wurden, funktionierte dieses Modell hervorragend.

Warum das klassische Modell an Grenzen geriet

Mit der zunehmenden Virtualisierung veränderten sich Rechenzentren jedoch grundlegend. Virtuelle Maschinen wanderten flexibel zwischen Hosts, Anwendungen wurden modularer und die Kommunikation zwischen Servern nahm deutlich zu. Später beschleunigten Cloud-Plattformen, Containerisierung und Microservices diese Entwicklung zusätzlich.

Die Folge war ein fundamentaler Wandel der Kommunikationsmuster: Der Datenverkehr verlagerte sich zunehmend innerhalb des Rechenzentrums. Statt primär Benutzer:innen mit Servern kommunizierten plötzlich immer häufiger Systeme untereinander. Storage-Systeme synchronisierten Datenbestände, virtuelle Maschinen tauschten Zustände aus und Cluster koordinierten verteilte Berechnungen. Der zuvor dominierende Nord-Süd-Verkehr wurde damit zunehmend durch East-West-Traffic ersetzt.

Genau hier zeigte sich jedoch ein strukturelles Problem des klassischen Hierarchiemodells. Denn viele Kommunikationspfade mussten weiterhin dieselben zentralen Netzwerkebenen durchlaufen. Datenverkehr konzentrierte sich auf wenige Übergabepunkte, obwohl Anwendungen zunehmend horizontal verteilt arbeiteten.

Die Folge waren wachsende Engpässe: Einzelne Netzwerkpfade wurden stärker belastet als andere, Oversubscription nahm zu, Kommunikationszeiten wurden schwerer vorhersagbar und die horizontale Skalierung großer Umgebungen stieß zunehmend an praktische Grenzen.

Für klassische Unternehmensanwendungen blieb dies häufig tolerierbar. Für hochgradig parallele Workloads – wie moderne Cloud-Plattformen und insbesondere künstliche Intelligenz – entwickelte sich diese Architektur jedoch zunehmend zum Flaschenhals. Denn plötzlich mussten nicht mehr einzelne Systeme effizient kommunizieren, sondern ganze Cluster.

Clos Networks und die Idee verteilter Kommunikationspfade

Die Antwort auf die wachsenden Grenzen klassischer Datacenter-Architekturen lag letztlich in einem anderen Netzwerkprinzip. Statt Kommunikation über wenige zentrale Übergabepunkte zu bündeln, verfolgt ein sogenanntes Clos Network einen grundlegend anderen Ansatz: Viele gleichwertige Kommunikationspfade sollen parallel verfügbar sein.

Das Ziel besteht darin, Netzwerkverkehr möglichst gleichmäßig zu verteilen und zentrale Engpässe zu vermeiden. Anstatt Daten zwingend über wenige dominante Pfade zu leiten, stehen mehrere alternative Kommunikationswege zur Verfügung. Dadurch lassen sich Lastspitzen besser abfangen und Kommunikationspfade effizienter nutzen.

Gerade in Umgebungen mit hohem East-West-Traffic wird diese Eigenschaft entscheidend. Denn wenn Tausende Systeme gleichzeitig miteinander kommunizieren, genügt es nicht mehr, einzelne zentrale Backbone-Verbindungen immer weiter auszubauen. Stattdessen muss das Netzwerk selbst horizontal skalieren können.

Genau dieses Prinzip bildet heute die Grundlage moderner Datacenter-Fabrics – und damit auch der Architektur moderner KI-Rechenzentren.

Spine-Leaf: Das Clos-Prinzip für moderne Rechenzentren

Jahrzehnte später griffen Hyperscaler die Grundidee verteilter Kommunikationspfade wieder auf und adaptierten sie für moderne Cloud- und Datacenter-Umgebungen. Das Ergebnis ist die heute dominierende Spine-Leaf-Architektur.

Im Unterschied zum klassischen Hierarchiemodell existieren hier keine wenigen zentralen Übergabepunkte mehr, über die sich Kommunikationsströme bündeln müssen. Stattdessen folgt Spine-Leaf einem vergleichsweise einfachen, aber wirkungsvollen Prinzip: Jeder Leaf-Switch verbindet sich mit jedem Spine-Switch.

Dadurch entstehen zahlreiche parallele Kommunikationspfade zwischen Systemen. Datenverkehr kann flexibler verteilt werden, ohne sich auf einzelne dominante Netzwerkpfade konzentrieren zu müssen.

Gerade in hochgradig verteilten Umgebungen wird diese Eigenschaft entscheidend. Denn moderne Cloud-Plattformen und insbesondere KI-Rechenzentren erzeugen enorme Mengen gleichzeitiger Kommunikation zwischen Servern, Speichersystemen und GPU-Clustern. Das Netzwerk muss deshalb nicht nur hohe Bandbreiten bereitstellen, sondern Kommunikationspfade möglichst konsistent und skalierbar organisieren.

Genau hier liegen die Stärken von Spine-Leaf-Architekturen. Kommunikationswege bleiben besser vorhersehbar, wodurch Latenzen konsistenter werden. Gleichzeitig lässt sich die Infrastruktur horizontal erweitern: Neue Leaf- oder Spine-Switches können vergleichsweise flexibel ergänzt werden, ohne die gesamte Architektur neu entwerfen zu müssen. Mehrere parallele Pfade erhöhen zudem die Redundanz und reduzieren das Risiko lokaler Engpässe.

Das Ziel moderner Spine-Leaf-Designs lautet deshalb nicht mehr nur Konnektivität, sondern: möglichst stabile, skalierbare und vorhersehbare Kommunikation. Gerade diese Eigenschaften machen Spine-Leaf-Netzwerke heute zur Grundlage moderner Cloud- und KI-Rechenzentren.

Non-Blocking Fabrics

Ein besonders wichtiges Ziel moderner Spine-Leaf-Architekturen liegt im Aufbau sogenannter Non-Blocking Fabrics. Gemeint ist damit ein Netzwerkdesign, das Kommunikationspfade so bereitstellt, dass sich Datenströme möglichst wenig gegenseitig behindern. Systeme sollen gleichzeitig miteinander kommunizieren können, ohne permanent um dieselben Netzwerkressourcen konkurrieren zu müssen.

In der Praxis bedeutet dies nicht, dass Überlastungen grundsätzlich ausgeschlossen wären. Vielmehr geht es darum, Kommunikationspfade möglichst gleichmäßig zu verteilen und lokale Engpässe frühzeitig zu vermeiden.

Gerade in hochgradig parallelen Umgebungen wird diese Eigenschaft entscheidend. Denn wenn Tausende GPUs gleichzeitig Trainingszustände synchronisieren, Zwischenergebnisse austauschen oder gemeinsam an Modellberechnungen arbeiten, genügt reine Konnektivität längst nicht mehr.

Entscheidend wird vielmehr die Fähigkeit eines Netzwerks, Kommunikation möglichst stabil, skalierbar und vorhersehbar bereitzustellen. Genau deshalb bilden Spine-Leaf-Architekturen heute die Grundlage moderner Cloud- und KI-Rechenzentren.

Spine-Leaf: Das neue Rückgrat moderner KI-Rechenzentren

Wenn klassische Datacenter-Architekturen bei künstlicher Intelligenz an Grenzen stoßen, stellt sich zwangsläufig die nächste Frage: Welche Netzwerkarchitektur kann Tausende parallel kommunizierende Systeme effizient miteinander verbinden?

Die Antwort moderner Hyperscaler und KI-Infrastrukturen lautet heute in den meisten Fällen: Spine-Leaf.

Was zunächst wie ein weiterer Architekturbegriff klingt, markiert in der Praxis einen fundamentalen Wandel im Aufbau moderner Rechenzentren. Denn Spine-Leaf-Netzwerke wurden nicht entwickelt, um bestehende Datacenter geringfügig schneller zu machen. Ihr Ziel besteht vielmehr darin, Kommunikationsengpässe grundsätzlich zu vermeiden. Gerade für künstliche Intelligenz wird diese Eigenschaft zunehmend entscheidend.

Wie Spine-Leaf-Netzwerke aufgebaut sind

Im Kern folgt Spine-Leaf einer vergleichsweise einfachen Idee: möglichst viele direkte und gleichwertige Kommunikationspfade zwischen Systemen bereitzustellen.

Die Architektur besteht aus zwei Ebenen:

Leaf Layer: Verbindungsebene für Server, Storage-Systeme und GPU-Cluster
Spine Layer: hochperformante Transportebene zwischen allen Leafs

Der entscheidende Unterschied zu klassischen Drei-Schichten-Netzwerken liegt im Kommunikationsprinzip: Jeder Leaf-Switch verbindet sich mit jedem Spine-Switch. Dadurch existieren zwischen Systemen mehrere parallele Wege statt weniger zentraler Übergabepunkte.

Infografik zur Spine-Leaf-Netzwerkarchitektur in modernen Rechenzentren. Die Darstellung zeigt Spine- und Leaf-Switches mit vollständig vermaschten Verbindungen zwischen Servern, GPU-Clustern und Storage-Systemen. Visualisiert werden mehrere gleichwertige Kommunikationspfade, horizontale Skalierbarkeit und Vorteile für KI-Workloads mit hohem East-West-Traffic.

Ein Datenpaket muss sich nicht durch mehrere hierarchische Ebenen bewegen oder potenzielle Engpässe passieren. Stattdessen stehen mehrere nahezu gleichwertige Kommunikationspfade zur Verfügung, über die Last verteilt werden kann.

Die Architektur folgt damit einem zentralen Ziel: Kommunikation soll möglichst vorhersehbar, skalierbar und frei von zentralen Flaschenhälsen werden. Gerade in KI-Umgebungen wird diese Eigenschaft zum entscheidenden Vorteil.

Spine-Leaf ist nicht Mesh – Ein wichtiger Unterschied

Auf den ersten Blick kann Spine-Leaf leicht den Eindruck einer vollständigen Mesh-Architektur erzeugen. Schließlich verbindet sich jeder Leaf-Switch mit jedem Spine-Switch, wodurch zahlreiche parallele Kommunikationspfade entstehen. Tatsächlich unterscheiden sich beide Konzepte jedoch grundlegend.

Bei einer vollständigen Mesh-Architektur kommuniziert jedes System direkt mit jedem anderen System. Mit wachsender Infrastruktur steigt dadurch die Anzahl notwendiger Verbindungen sehr schnell an. Bereits mittelgroße Umgebungen würden enorme Mengen physischer Links und erhebliche Komplexität erzeugen.

Spine-Leaf verfolgt einen anderen Ansatz. Nicht jedes Endsystem wird direkt mit allen anderen verbunden. Stattdessen übernehmen die Spine-Switches eine hochperformante Vermittlungsfunktion zwischen den Leafs. Server, Storage-Systeme oder GPU-Knoten kommunizieren weiterhin über ihre angebundenen Leaf-Switches – profitieren jedoch von mehreren nahezu gleichwertigen Transportpfaden innerhalb der Fabric.

Infografik zum Unterschied zwischen vollständiger Mesh-Architektur und Spine-Leaf-Netzwerken in modernen Rechenzentren. Die linke Seite zeigt ein vollständig vermaschtes Netzwerk, in dem jedes System direkt mit jedem anderen verbunden ist. Rechts wird eine Spine-Leaf-Architektur mit Spine- und Leaf-Switches dargestellt, die mehrere parallele Kommunikationspfade über eine vermittelnde Netzwerkebene bereitstellt.

Oder vereinfacht formuliert: Spine-Leaf erzeugt Mesh-ähnliche Redundanz – ohne die Komplexität eines vollständigen Mesh-Netzwerks. Gerade diese Balance macht Spine-Leaf so attraktiv für moderne Rechenzentren.

Denn während ein vollständiges Mesh mit zunehmender Größe schnell unbeherrschbar würde, lässt sich eine Spine-Leaf-Fabric vergleichsweise kontrolliert horizontal erweitern. Neue Leafs oder Spines ergänzen zusätzliche Kapazität, ohne dass bestehende Kommunikationsbeziehungen grundlegend neu aufgebaut werden müssen.

Für hochgradig skalierende KI-Rechenzentren wird genau diese Eigenschaft entscheidend: möglichst viele parallele Kommunikationspfade – ohne exponentiell wachsende Komplexität.

Warum Spine-Leaf für künstliche Intelligenz besonders geeignet ist

Künstliche Intelligenz stellt Netzwerke vor ein Problem, das klassische Unternehmensanwendungen kaum erzeugen: hochgradig parallele Kommunikation.

Während traditionelle Workloads häufig einzelne Server adressieren, erzeugen KI-Cluster massive Mengen horizontalen Netzwerkverkehrs. GPUs tauschen permanent Trainingsparameter aus, synchronisieren Modellzustände und koordinieren Berechnungsschritte in Echtzeit. Je größer ein Modell wird, desto kritischer wird dabei die Netzwerkinfrastruktur.

Spine-Leaf-Architekturen bieten hierfür mehrere Vorteile:

Deterministische Kommunikationspfade

Da mehrere gleichwertige Wege zwischen Systemen existieren, lassen sich Kommunikationszeiten deutlich besser vorhersagen. Schwankende Laufzeiten – häufig als Jitter bezeichnet – können reduziert werden. Gerade bei synchronisierten Trainingsprozessen ist diese Vorhersagbarkeit entscheidend.

Hohe Redundanz

Fällt ein Netzwerkpfad aus, stehen unmittelbar alternative Wege zur Verfügung. KI-Cluster bleiben dadurch robuster gegenüber Störungen, ohne dass einzelne Ausfälle komplette Berechnungen blockieren.

Niedrige Latenz

Da Daten weniger Umwege über hierarchische Netzwerkebenen nehmen müssen, sinken Verzögerungen bei der Kommunikation zwischen Systemen. Das wird besonders wichtig, wenn Tausende GPUs parallel zusammenarbeiten.

Lineare Skalierung

Einer der größten Vorteile moderner Spine-Leaf-Netze liegt in ihrer Skalierbarkeit. Benötigt ein KI-Cluster zusätzliche Kapazität, lassen sich neue Leaf- oder Spine-Switches vergleichsweise einfach ergänzen, ohne die gesamte Architektur neu entwerfen zu müssen. Die Infrastruktur wächst damit horizontal statt vertikal.

Warum GPU-Cluster von Spine-Leaf profitieren

Gerade in KI-Rechenzentren zeigt sich die Stärke dieser Architektur besonders deutlich. Moderne Trainingsumgebungen arbeiten häufig mit Tausenden GPUs gleichzeitig. Jede dieser GPUs verarbeitet unterschiedliche Teile eines Modells oder verschiedener Datensätze. Damit das Gesamtsystem konsistent bleibt, müssen Zwischenergebnisse permanent synchronisiert werden.

Die Folge: Nicht einzelne Server kommunizieren gelegentlich miteinander – sondern ganze GPU-Verbünde permanent und parallel.

Genau für solche Kommunikationsmuster wurde Spine-Leaf praktisch optimiert. Statt wenige zentrale Netzwerkpfade zu überlasten, verteilt die Architektur Datenverkehr über viele gleichwertige Verbindungen. Dadurch entstehen weniger Engpässe, stabilere Laufzeiten und besser vorhersehbare Leistungswerte.

Oder anders formuliert: KI benötigt keine schnelleren Einzelverbindungen – sondern ein Netzwerk, das massive Parallelität effizient beherrscht.

Vom Hyperscaler zum Standard moderner KI-Rechenzentren

Spine-Leaf galt lange als Architektur großer Cloud-Anbieter. Hyperscaler wie Microsoft, Google oder Meta setzten früh auf Clos-basierte Netzwerkdesigns, um massive interne Kommunikationsströme effizient abzubilden. Mit dem KI-Boom verschiebt sich diese Architektur jedoch zunehmend in den Mainstream.

Auch moderne NVIDIA AI Factories, GPU-as-a-Service-Plattformen und große Unternehmensrechenzentren orientieren sich heute an Spine-Leaf-Designs. Besonders in den Azure- und OpenAI-Umgebungen zeigt sich, wie stark Netzwerkinfrastruktur inzwischen über die tatsächliche Leistungsfähigkeit von KI-Systemen entscheidet.

Denn in modernen KI-Rechenzentren genügt es längst nicht mehr, einzelne Systeme besonders leistungsfähig zu machen. Entscheidend wird zunehmend die Fähigkeit, Tausende Systeme als koordinierte Einheit arbeiten zu lassen. Und genau an dieser Stelle beginnt eine neue Debatte: Reicht klassisches Ethernet dafür überhaupt noch aus – oder braucht künstliche Intelligenz völlig neue Netzwerktechnologien?

Exkurs: Zwei Vordenker moderner Netzwerke – Charles Clos und Edson Erwin

Moderne KI-Rechenzentren wirken auf den ersten Blick wie eine völlig neue Infrastrukturwelt. Tausende GPUs, hochgradig parallele Kommunikation und Spine-Leaf-Topologien erscheinen häufig als direkte Folge aktueller KI-Entwicklungen. Tatsächlich reichen einige der zugrunde liegenden Ideen jedoch viele Jahrzehnte zurück.

Besonders zwei Namen helfen dabei, die Entwicklung moderner Datacenter-Fabrics besser zu verstehen: Charles Clos und Edson Erwin.

Charles Clos – Die Idee hinter skalierbaren Kommunikationspfaden

Bereits Mitte des 20. Jahrhunderts entwickelte der amerikanische Ingenieur und Mathematiker Charles Clos ein Schaltungsmodell für große Telefonsysteme. Die Herausforderung war damals überraschend ähnlich zu heutigen Rechenzentren: Wie lassen sich große Kommunikationssysteme skalieren, ohne zentrale Engpässe entstehen zu lassen?

Clos entwickelte dafür ein mehrstufiges Netzwerkmodell, das nicht auf wenige dominante Verbindungen setzte, sondern auf mehrere gleichwertige Kommunikationspfade. Die Grundidee war ebenso einfach wie wirkungsvoll: Kommunikation sollte über alternative Wege verteilt werden können, anstatt stets dieselben zentralen Übergänge zu passieren. Dieses Prinzip wurde später als Clos Network bekannt.

Was ursprünglich für Telefonsysteme entwickelt wurde, bildet heute die konzeptionelle Grundlage moderner Datacenter-Fabrics. Auch heutige Spine-Leaf-Architekturen folgen letztlich demselben Gedanken: Viele parallele Kommunikationspfade statt weniger zentraler Engstellen.

Edson Erwin – Das Clos-Prinzip für moderne Rechenzentren

Während Charles Clos das theoretische Fundament legte, halfen spätere Netzwerkarchitekt:innen dabei, diese Prinzipien praktisch auf moderne Datacenter zu übertragen.

Besonders Edson Erwin prägte die Diskussion um skalierbare Clos-basierte Netzwerkarchitekturen in Cloud- und Rechenzentrumsumgebungen. In Fachpublikationen und Datacenter-Konzepten zeigte er früh auf, warum klassische hierarchische Netzmodelle unter wachsender Ost-West-Kommunikation zunehmend an Grenzen geraten.

Im Mittelpunkt stand dabei eine Erkenntnis, die heute aktueller wirkt denn je: Große verteilte Systeme benötigen keine größeren zentralen Netzwerke – sondern besser verteilte Kommunikationspfade. Gerade Hyperscaler griffen diese Denkweise später auf und entwickelten daraus moderne Spine-Leaf-Architekturen für Cloud- und KI-Infrastrukturen.

Damit zeigt sich ein spannender Zusammenhang: Ein erheblicher Teil moderner KI-Netzwerke basiert auf Ideen, die lange vor Cloud Computing, GPUs oder künstlicher Intelligenz entstanden.

Was sich verändert hat, ist weniger das Grundprinzip – sondern vor allem die Größenordnung. Wo früher Telefonsysteme skaliert werden mussten, koordinieren heute Tausende GPUs Trainingsprozesse großer Sprachmodelle.

Warum Ethernet für KI-Cluster wieder an Bedeutung gewinnt

Aus den bisherigen Schilderungen wird deutlich, warum künstliche Intelligenz neue Netzwerkarchitekturen erzwingt. Spine-Leaf-Netzwerke helfen dabei, massive Mengen paralleler Kommunikation effizient zu organisieren und East-West-Traffic kontrollierbar zu machen. Doch selbst die beste Architektur beantwortet noch nicht eine entscheidende Frage: Welche Netzwerktechnologie eignet sich überhaupt für KI-Rechenzentren?

Lange Zeit schien die Antwort eindeutig: Wer höchste Leistung, minimale Latenzen und hochgradig parallele Kommunikation benötigte, setzte auf InfiniBand. Ethernet dagegen galt zwar als universeller Standard moderner Netzwerke – aber nicht unbedingt als erste Wahl für extrem leistungsfähige Rechencluster. Genau diese Annahme beginnt sich derzeit jedoch grundlegend zu verändern.

Warum Ethernet über Jahrzehnte dominierte

Kaum eine Netzwerktechnologie hat die IT-Landschaft so nachhaltig geprägt wie Ethernet. Seit den frühen Tagen lokaler Netzwerke entwickelte sich Ethernet vom vergleichsweise langsamen Shared-Medium-Netzwerk zur dominierenden Kommunikationsplattform moderner Unternehmens- und Cloud-Infrastrukturen. Seine Stärke lag dabei weniger in maximaler Spezialleistung als in einer Kombination aus Offenheit, Wirtschaftlichkeit und kontinuierlicher Evolution.

Ethernet setzte sich aus mehreren Gründen weltweit durch:

Offene Standards: Herstellerübergreifende Kompatibilität förderte Innovation und Wettbewerb
Skalierbarkeit: Von wenigen Megabit bis hin zu mehreren Hundert Gigabit pro Sekunde entwickelte sich Ethernet kontinuierlich weiter
Kostenstruktur: Große Stückzahlen und breite Marktadoption reduzierten Investitionskosten erheblich
Flexibilität: Dieselbe Technologie konnte Campus-Netze, Rechenzentren und WAN-Anbindungen verbinden

Gerade Hyperscaler profitierten davon. Denn globale Cloud-Plattformen lassen sich wirtschaftlich kaum auf proprietären Speziallösungen aufbauen.

Dennoch existierte lange Zeit eine Grenze. Denn sobald maximale Performance gefragt war, begann traditionell das Terrain einer anderen Technologie.

Warum Hochleistungsrechner lange auf InfiniBand setzten

In der Welt des High Performance Computing (HPC) dominierte über viele Jahre ein anderer Name: InfiniBand. Der Grund lag in einem Problem, das bereits früh sichtbar wurde: Klassisches Ethernet war für hochgradig parallele Workloads oft nicht schnell und vorhersehbar genug.

InfiniBand adressierte genau diese Herausforderung. Die Technologie wurde speziell für Umgebungen entwickelt, in denen Tausende Systeme mit minimaler Verzögerung und möglichst verlustfrei miteinander kommunizieren müssen. Statt universelle Netzwerkanforderungen abzudecken, fokussierte sich InfiniBand gezielt auf maximale Effizienz in Rechenclustern.

Besonders relevant wurden dabei drei Eigenschaften:

Niedrige Latenzen: Kommunikation erfolgt mit minimalen Verzögerungen
RDMA-Unterstützung: Systeme können direkt auf Speicherbereiche anderer Systeme zugreifen, ohne den klassischen CPU-Overhead
Verlustarme Kommunikation: Paketverluste und Wiederholungen werden möglichst vermieden

Gerade Supercomputer und wissenschaftliche Rechenzentren profitierten davon erheblich. Lange galt deshalb nahezu als Naturgesetz: Höchstleistung im Rechenzentrum bedeutet InfiniBand.

Mit dem Aufstieg großer Sprachmodelle übertrug sich diese Logik zunächst direkt auf künstliche Intelligenz.

Lange Zeit galt: KI braucht InfiniBand

Die ersten großen KI-Cluster entstanden überwiegend in Umgebungen, die sich technologisch stark an klassischen HPC-Systemen orientierten. Die Begründung erschien plausibel: Wenn Tausende GPUs permanent miteinander kommunizieren, Modellzustände synchronisieren und enorme Datenmengen austauschen, dann sind geringe Latenzen und möglichst verlustfreie Kommunikation entscheidend. InfiniBand schien dafür nahezu ideal geeignet.

Entsprechend basieren viele frühe KI-Supercomputer und Trainingscluster auf InfiniBand-Fabrics – häufig eng gekoppelt mit GPU-Architekturen von NVIDIA. Doch genau an dieser Stelle beginnt sich der Markt spürbar zu verändern. Denn während InfiniBand technisch weiterhin enorme Vorteile besitzt, wachsen gleichzeitig neue Anforderungen, die über reine Spitzenleistung hinausgehen.

Warum Hyperscaler plötzlich wieder auf Ethernet setzen

Mit dem KI-Boom verschieben sich die Prioritäten großer Rechenzentren. Nicht mehr nur maximale Einzelperformance steht im Fokus, sondern vor allem eine Frage: Wie lassen sich Tausende oder sogar Hunderttausende Systeme wirtschaftlich skalieren? Hier beginnen die traditionellen Stärken von Ethernet plötzlich wieder an Bedeutung zu gewinnen.

Hyperscaler wie Microsoft, Meta oder Google betreiben Infrastrukturen in Größenordnungen, die klassische HPC-Dimensionen weit überschreiten. Entscheidend wird deshalb nicht allein technische Exzellenz, sondern auch:

globale Skalierbarkeit
Herstellerunabhängigkeit
Integration bestehender Netzwerkinfrastrukturen
offene Standards
wirtschaftlicher Betrieb

Ethernet bringt hierfür bereits erhebliche Vorteile mit.

Zugleich hat sich die Technologie in den vergangenen Jahren massiv weiterentwickelt. Moderne Ethernet-Fabrics arbeiten längst nicht mehr wie klassische Unternehmensnetzwerke. Höhere Geschwindigkeiten, verbesserte Telemetrie, neue Verfahren zur Überlastungsvermeidung und Technologien wie RoCEv2 schließen viele historische Schwächen zunehmend.

Die eigentliche Debatte lautet daher heute nicht mehr: Ethernet oder InfiniBand?, sondern vielmehr: Kann Ethernet inzwischen genug HPC-Eigenschaften übernehmen, um zur dominierenden KI-Netzwerktechnologie zu werden?

Genau an dieser Stelle beginnt der eigentliche Wettkampf moderner KI-Netzwerke.

Ethernet versus InfiniBand – Der Wettkampf um KI-Netzwerke

Nachdem moderne KI-Rechenzentren zunehmend auf Spine-Leaf-Architekturen setzen, stellt sich die nächste entscheidende Frage: Welche Netzwerktechnologie eignet sich am besten, um Tausende GPUs effizient miteinander zu verbinden?

Genau hier prallen derzeit zwei Welten aufeinander: Auf der einen Seite steht InfiniBand – über Jahre hinweg die dominierende Technologie für Hochleistungsrechner und wissenschaftliche Supercomputer. Auf der anderen Seite entwickelt sich Ethernet vom universellen Netzwerkstandard zunehmend zu einer ernstzunehmenden Alternative für KI-Infrastrukturen.

Die Debatte wird dabei häufig verkürzt dargestellt: InfiniBand = maximale Leistung vs. Ethernet = günstige Standardlösung.

Tatsächlich ist die Realität deutlich komplexer. Denn beide Technologien folgen unterschiedlichen Designphilosophien – und beide besitzen spezifische Stärken und Grenzen.

Warum InfiniBand lange als Goldstandard galt

Die Stärke von InfiniBand liegt vor allem in einem Ziel: Kommunikation möglichst schnell, verlustarm und vorhersehbar zu gestalten.

Genau diese Eigenschaften sind in hochgradig parallelen Rechenumgebungen entscheidend. Denn bei verteiltem KI-Training arbeiten Tausende GPUs eng synchronisiert zusammen. Bereits geringe Verzögerungen einzelner Systeme können die Effizienz des gesamten Clusters reduzieren. InfiniBand wurde genau für solche Szenarien entwickelt.

Im Unterschied zu klassischen Netzwerken minimiert die Technologie Kommunikationslatenzen konsequent und optimiert den Datenaustausch zwischen Rechenknoten. Dabei spielen mehrere Eigenschaften eine zentrale Rolle.

Infografik zu InfiniBand in KI- und High-Performance-Computing-Umgebungen. Die Darstellung zeigt ein hochperformantes Compute-Fabric mit Netzwerkhardware und Kabelverbindungen in einem Rechenzentrum. Ergänzende Informationen visualisieren Vorteile wie extrem niedrige Latenzen, hohe Bandbreite, verlustfreie Übertragung, RDMA-Optimierung und effiziente Skalierung für große GPU-Cluster.

RDMA: Daten ohne Umweg transportieren

Eine der wichtigsten Technologien hinter InfiniBand ist Remote Direct Memory Access (RDMA). Vereinfacht formuliert ermöglicht RDMA den direkten Zugriff auf Speicherbereiche anderer Systeme – ohne den klassischen Umweg über Betriebssystem-Stacks oder hohe CPU-Beteiligung.

In traditionellen Netzwerken durchlaufen Datenpakete typischerweise mehrere Verarbeitungsschritte: Netzwerkkarte → Kernel → Betriebssystem → CPU → Anwendung. Dieser Prozess erzeugt zusätzlichen Overhead und kostet Zeit.

RDMA verkürzt diesen Weg erheblich. Daten können deutlich direkter zwischen beteiligten Systemen übertragen werden. Dadurch sinken Latenzen, CPU-Ressourcen werden entlastet und große Datenmengen lassen sich effizienter bewegen. Gerade beim Training großer Sprachmodelle mit permanenter GPU-Synchronisation entsteht daraus ein erheblicher Vorteil.

Infografik zu Remote Direct Memory Access (RDMA) in modernen Hochleistungsnetzwerken. Die Darstellung vergleicht den traditionellen Netzwerkweg über Anwendung, CPU, Betriebssystem und Kernel mit einem direkten RDMA-Datenpfad zwischen Netzwerkkarten und Speicherbereichen. Visualisiert werden Vorteile wie geringere Latenzen, weniger CPU-Overhead und höhere Effizienz für KI-Training und GPU-Synchronisation.

Geringe Latenz und deterministische Kommunikation

Neben RDMA zeichnet sich InfiniBand vor allem durch sehr niedrige und vorhersehbare Latenzen aus.

Für klassische Unternehmensanwendungen spielt es oft keine entscheidende Rolle, ob ein Datenpaket einige Millisekunden früher oder später ankommt. KI-Workloads reagieren dagegen deutlich empfindlicher. Der Grund: Große GPU-Cluster arbeiten häufig synchron.

Müssen mehrere Systeme Berechnungsschritte koordinieren, entsteht schnell ein Warteproblem: Das gesamte System orientiert sich am langsamsten Teilnehmer. InfiniBand adressiert dieses Risiko durch möglichst stabile Kommunikationszeiten.

Nicht nur Geschwindigkeit zählt dabei, sondern Vorhersagbarkeit. Denn ein Netzwerk mit schwankenden Laufzeiten kann für KI-Workloads problematischer sein als ein minimal langsameres, aber konsistentes System.

Verlustarme Kommunikation als entscheidender Vorteil

Ein weiterer historischer Vorteil von InfiniBand liegt im Umgang mit Paketverlusten. Klassisches Ethernet arbeitet traditionell nach dem Prinzip: Paket verloren? Erneut senden. Für Office-Anwendungen oder Webdienste ist das meist unproblematisch.

In KI-Clustern kann dies jedoch schnell ineffizient werden. Denn wenn Tausende Systeme permanent Daten austauschen, erzeugen Wiederholungen zusätzlichen Netzwerkverkehr und können Synchronisationsprozesse verzögern.

InfiniBand wurde deshalb gezielt für möglichst verlustarme Kommunikation entwickelt. Ziel ist es, Überlastsituationen früh zu kontrollieren, anstatt verlorene Daten nachträglich kompensieren zu müssen. Gerade in HPC- und KI-Umgebungen war dies lange ein entscheidender Wettbewerbsvorteil.

Die Grenzen von InfiniBand

Trotz seiner technischen Stärken ist InfiniBand keineswegs alternativlos. Mit dem explosionsartigen Wachstum künstlicher Intelligenz treten zunehmend Herausforderungen in den Vordergrund, die über reine Spitzenleistung hinausgehen.

Kosten und Komplexität

InfiniBand gilt traditionell als leistungsfähig – jedoch auch als kostenintensiv. Spezialisierte Hardware, eigene Fabric-Komponenten und hohe Anforderungen an Planung und Betrieb führen häufig zu erheblichen Investitionskosten. Je größer ein KI-Cluster wird, desto stärker wächst dieser Faktor.

Vendor Lock-in und Ökosystem

Ein weiterer Kritikpunkt betrifft die Marktstruktur. Während Ethernet auf offenen Standards basiert und ein breites Herstellerökosystem besitzt, ist InfiniBand deutlich enger an spezialisierte Anbieter gebunden. Gerade große Cloud-Anbieter betrachten diese Abhängigkeit zunehmend kritisch. Denn Hyperscaler denken in Dimensionen von Hunderttausenden Systemen – nicht in einzelnen Hochleistungsclustern.

Skalierung über extreme Größenordnungen

Während InfiniBand hervorragend in spezialisierten Hochleistungsumgebungen funktioniert, stellt sich bei global skalierten Cloud-Architekturen eine zusätzliche Frage: Lässt sich diese Technologie wirtschaftlich auf Hyperscaler-Niveau betreiben? Hier beginnen die traditionellen Stärken von Ethernet plötzlich wieder relevant zu werden.

Warum Ethernet plötzlich aufholt

Noch vor wenigen Jahren wäre die Vorstellung, Ethernet könne ernsthaft mit InfiniBand konkurrieren, für viele Infrastrukturteams kaum denkbar gewesen. Doch genau diese Entwicklung ist inzwischen Realität. Der wichtigste Grund: Ethernet hat sich fundamental weiterentwickelt.

Moderne Ethernet-Netze arbeiten längst nicht mehr wie klassische Unternehmensinfrastrukturen. Neue Switch-ASICs, hochperformante Spine-Leaf-Fabrics und deutlich intelligentere Verkehrssteuerung reduzieren viele frühere Schwächen erheblich.

Besonders wichtig wurde dabei eine Technologie:

RoCEv2 – RDMA über Ethernet

RDMA over Converged Ethernet (RoCEv2) versucht, zentrale Eigenschaften von InfiniBand in Ethernet-Netzwerke zu übertragen. Die Idee dahinter ist ebenso einfach wie strategisch bedeutend: Ethernet soll dieselben Effizienzvorteile nutzen können, ohne auf offene Standards zu verzichten.

Auch hier ermöglicht RDMA direkte Speicherzugriffe zwischen Systemen und reduziert CPU-Overhead erheblich. Gleichzeitig profitieren Betreiber weiterhin von der Skalierbarkeit und Offenheit klassischer Ethernet-Ökosysteme.

Damit verändert sich die Debatte zunehmend. Nicht mehr die Frage: Ethernet oder InfiniBand? steht im Mittelpunkt, sondern vielmehr: Reicht modernes Ethernet inzwischen aus, um klassische HPC-Netzwerke zu verdrängen?

Genau an dieser Stelle beginnt die nächste Evolutionsstufe moderner KI-Netzwerke – und damit die Diskussion um Ultra Ethernet.

Exkurs: RoCEv2 erklärt – Wie Ethernet lernt, sich wie InfiniBand zu verhalten

Der bisherige Verlauf hat gezeigt, warum InfiniBand lange als bevorzugte Technologie für Hochleistungsrechenzentren galt: geringe Latenzen, verlustarme Kommunikation und eine besonders effiziente Datenübertragung zwischen Systemen.

Doch wie gelingt es modernem Ethernet plötzlich, in ähnliche Leistungsbereiche vorzudringen? Die Antwort lautet häufig: RoCEv2 – ausgesprochen Rocky Version 2. Hinter dem sperrigen Namen verbirgt sich eine Technologie, die Ethernet grundlegend verändert.

RDMA – Daten ohne Umweg transportieren

In traditionellen Netzwerken durchlaufen Datenpakete typischerweise mehrere Verarbeitungsschritte: Netzwerkkarte → Kernel → Betriebssystem → CPU → Anwendung. Dieser Prozess erzeugt zusätzlichen Overhead und kostet Zeit.

RDMA verkürzt diesen Weg erheblich. Daten können mit deutlich geringerem Protokoll- und Verarbeitungsaufwand zwischen beteiligten Systemen übertragen werden. Dadurch sinken Latenzen, CPU-Ressourcen werden entlastet und große Datenmengen lassen sich effizienter bewegen.

Gerade beim Training großer Sprachmodelle mit permanenter GPU-Synchronisation entsteht daraus ein erheblicher Vorteil.

Kernel Bypass – Warum weniger Betriebssystem plötzlich besser ist

Ein zentraler Bestandteil von RDMA ist der sogenannte Kernel Bypass. Dabei umgehen bestimmte Kommunikationsvorgänge Teile des klassischen Betriebssystempfads.

Das klingt zunächst ungewöhnlich, verfolgt jedoch ein klares Ziel: möglichst wenig Verzögerung zwischen sendendem und empfangendem System. Anstatt Daten mehrfach durch Betriebssystemschichten zu bewegen, können Netzwerkkarten und Anwendungen direkter zusammenarbeiten.

Die Folge:

geringere CPU-Last
niedrigere Latenzen
stabilere Kommunikationszeiten
effizientere GPU-Auslastung

Gerade in hochgradig synchronisierten KI-Clustern zählt oft jede Millisekunde. Denn Verzögerungen einzelner Kommunikationspfade können sich – wie bereits beschrieben – schnell auf ganze Trainingscluster auswirken.

Das Problem: Ethernet ist ursprünglich nicht verlustarm gebaut

Genau hier entsteht jedoch ein wichtiges Problem. Klassisches Ethernet arbeitet nach einem robusten Grundprinzip: Geht ein Paket verloren, wird es erneut übertragen. Für klassische Anwendungen funktioniert dieses Verhalten hervorragend.

KI-Workloads reagieren jedoch empfindlicher. Denn bei GPU-Synchronisationen können bereits kleinere Paketverluste zusätzliche Wartezeiten erzeugen. Muss Kommunikation erneut aufgebaut werden, geraten hochgradig parallele Prozesse schneller aus dem Gleichgewicht.

RoCEv2 versucht deshalb, Ethernet gezielt in Richtung eines möglichst verlustarmen (lossless) Verhaltens weiterzuentwickeln. Das Ziel lautet: Ethernet soll sich in kritischen Bereichen zunehmend wie InfiniBand verhalten.

PFC – Wenn Ethernet gezielt pausieren lernt

Ein wichtiger Baustein hierfür ist Priority Flow Control (PFC). Vereinfacht gesprochen kann Ethernet Datenströme gezielt anhalten, bevor Paketverluste entstehen. Anstatt Pakete zu verwerfen und später erneut zu übertragen, signalisiert das Netzwerk kurzfristig: Kurz warten – hier entsteht gerade Überlastung.

Gerade für sensible RDMA-Kommunikation kann dies hilfreich sein. Denn weniger Paketverluste bedeuten häufig stabilere Kommunikationspfade und geringere Verzögerungen.

Allerdings besitzt PFC auch Grenzen: Werden Netzwerke falsch konfiguriert, können neue Probleme wie Blockierungen oder sogenannte Congestion Spreading Effects entstehen.

ECN – Überlastung erkennen, bevor Probleme entstehen

Einen ergänzenden Ansatz verfolgt Explicit Congestion Notification (ECN). Während Priority Flow Control (PFC) Kommunikationsströme bei drohender Überlastung gezielt pausieren kann, versucht ECN Probleme möglichst früher sichtbar zu machen – bevor harte Eingriffe notwendig werden.

Das ist insbesondere deshalb wichtig, weil verlustarme Netzwerke zwar Vorteile bieten, jedoch auch neue Risiken erzeugen können. Werden Datenströme zu stark angehalten, können sich Überlastungen unter Umständen auf weitere Netzwerkbereiche ausbreiten. In Fachkreisen spricht man hierbei von sogenannten Congestion Spreading Effects.

ECN verfolgt deshalb einen anderen Ansatz: Das Netzwerk meldet Stress, bevor Kommunikation ins Stocken gerät. Switches signalisieren beteiligten Systemen frühzeitig, dass bestimmte Kommunikationspfade zunehmend ausgelastet werden. Anstatt erst auf Paketverluste oder starke Verzögerungen zu reagieren, können Kommunikationspartner ihre Datenströme dynamisch anpassen und Last reduzieren. Ziel ist es, Überlastungen möglichst früh zu entschärfen, bevor sie größere Auswirkungen entfalten.

Gerade in großen KI-Clustern wird dies zunehmend entscheidend. Denn wenn Tausende GPUs gleichzeitig kommunizieren, können bereits kleinere lokale Engpässe Synchronisationsprozesse verzögern und damit ganze Trainingsläufe beeinflussen.

Oder vereinfacht formuliert: PFC versucht Probleme zu stoppen – ECN versucht, sie möglichst früh zu vermeiden.

RoCEv2 – Der Kompromiss zwischen Offenheit und Performance

RoCEv2 macht Ethernet nicht automatisch zu InfiniBand. Die Technologie bleibt komplex und stellt hohe Anforderungen an Netzwerkdesign, Switch-Konfiguration und Verkehrssteuerung. Gleichzeitig wäre es zu kurz gegriffen, RoCEv2 lediglich als Kombination einzelner Mechanismen wie RDMA, PFC oder ECN zu verstehen. Tatsächlich handelt es sich um einen umfassenderen Ansatz, um RDMA über skalierbare Ethernet-Infrastrukturen praktikabel zu machen.

Der entscheidende Unterschied liegt dabei in der Weiterentwicklung gegenüber früheren Konzepten: Während ursprüngliche RDMA-Ansätze stark an lokale Layer-2-Netzwerke gebunden waren, ermöglicht RoCEv2 (RDMA over Converged Ethernet Version 2) die Kommunikation über IP-basierte Layer-3-Netzwerke. RDMA wird dabei über UDP gekapselt und kann dadurch auch in größeren, gerouteten Datacenter-Fabrics eingesetzt werden.

Gerade für moderne Spine-Leaf-Architekturen großer KI-Rechenzentren wird dies entscheidend. Denn AI-Fabrics bestehen längst nicht mehr aus wenigen lokal verbundenen Servern. Kommunikation muss über große Cluster hinweg skalieren – häufig verteilt über zahlreiche Leafs, Spines und logisch segmentierte Netzwerkbereiche.

RoCEv2 kombiniert deshalb mehrere Eigenschaften zu einem Gesamtsystem:

RDMA-Kommunikation für geringe CPU-Last und niedrige Latenzen
Kernel Bypass zur Reduzierung unnötiger Verarbeitungsschritte
verlustarme Übertragung durch Mechanismen wie PFC
frühe Congestion-Erkennung über ECN
IP-basierte Skalierung für große Spine-Leaf-Fabrics

Das Ziel lautet letztlich: möglichst infiniBand-ähnliche Kommunikation – auf Basis offener Ethernet-Infrastrukturen.

Genau deshalb gewinnt RoCEv2 derzeit stark an Bedeutung. Denn moderne KI-Rechenzentren suchen zunehmend einen Mittelweg: möglichst geringe Latenzen und verlustarme Kommunikation – ohne die Offenheit, Herstellerunabhängigkeit und Skalierbarkeit von Ethernet aufzugeben.

RoCEv2 ersetzt InfiniBand damit nicht zwangsläufig. Es verschiebt jedoch die Frage zunehmend von: Welche Technologie ist technisch überlegen? hin zu: Welche Architektur skaliert wirtschaftlich und betrieblich besser für KI?

Ultra Ethernet: Der Versuch, Ethernet KI-tauglich zu machen

Das vorherige Kapitel hat gezeigt, warum Ethernet im KI-Umfeld plötzlich wieder strategisch wird. Moderne Spine-Leaf-Fabrics, hochperformante Switches und Technologien wie RoCEv2 haben viele historische Schwächen klassischer Netzwerke bereits deutlich reduziert. Gleichzeitig bleibt eine entscheidende Frage bestehen: Reicht modernes Ethernet wirklich aus, um die Anforderungen zukünftiger KI-Rechenzentren dauerhaft zu erfüllen? Denn selbst aktuelle Hochleistungsnetzwerke stoßen zunehmend an Grenzen.

Je größer KI-Modelle werden, desto stärker wachsen Datenmengen, Kommunikationskomplexität und Synchronisationsaufwand. Genau an dieser Stelle entstand eine neue Initiative, die Ethernet gezielt für KI- und HPC-Umgebungen weiterentwickeln möchte: Ultra Ethernet.

Warum klassisches Ethernet an Grenzen stößt

Ethernet entwickelte sich über Jahrzehnte zu einem äußerst flexiblen und leistungsfähigen Netzwerkstandard. Die Technologie wurde jedoch ursprünglich nicht speziell für hochgradig parallele KI-Workloads entworfen.

Gerade bei großen GPU-Clustern treten Probleme auf, die in klassischen Unternehmensnetzwerken oft kaum sichtbar werden:

Packet Loss und Retransmissions

Traditionelles Ethernet arbeitet vergleichsweise robust: Geht ein Paket verloren, wird es erneut übertragen. Für Office-Anwendungen, Streaming oder Webdienste funktioniert dieses Prinzip meist problemlos.

KI-Workloads reagieren dagegen deutlich empfindlicher. Denn in GPU-Clustern tauschen Systeme permanent Trainingsparameter und Zwischenergebnisse aus. Muss ein einzelnes Paket erneut übertragen werden, können ganze Synchronisationsprozesse verzögert werden. Die Folge: Tausende GPUs warten potenziell aufeinander. Je größer ein Cluster wird, desto stärker können sich solche Effekte kumulieren.

Congestion – Wenn Netzwerke sich selbst ausbremsen

Ein weiteres Problem entsteht durch Netzwerküberlastung (Congestion / Stau). KI-Workloads erzeugen häufig sogenannte Elephant Flows – große, kontinuierliche Datenströme zwischen vielen Systemen. Treffen zahlreiche dieser Datenströme gleichzeitig auf gemeinsame Netzwerkpfade, entstehen Engpässe.

In klassischen Netzwerken führt dies zu:

Warteschlangen in Switches
Paketverlusten
erneuten Übertragungen
unvorhersehbaren Verzögerungen

Gerade hochgradig parallele Trainingsverfahren reagieren darauf empfindlich. Denn nicht die Durchschnittsgeschwindigkeit entscheidet über die Effizienz eines KI-Clusters – sondern häufig der langsamste Kommunikationspfad.

Tail Latency – Das unterschätzte Problem großer KI-Cluster

Besonders kritisch wird in KI-Netzen ein Effekt, der häufig unterschätzt wird: Tail Latency.

Gemeint sind seltene, aber besonders langsame Kommunikationsereignisse – also Latenzen am rechten Rand (Tail) der statistischen Verteilung von Antwortzeiten. Während der Großteil von Datenpaketen sehr schnell übertragen wird, treten vereinzelt deutlich langsamere Kommunikationspfade auf.

Genau diese Ausreißer werden in hochgradig parallelen KI-Umgebungen problematisch. Denn bei synchronisierten Trainingsprozessen entscheidet nicht die durchschnittliche Kommunikationsgeschwindigkeit über die Gesamtleistung, sondern häufig der langsamste Teilnehmer im Verbund.

Was in kleineren Infrastrukturen kaum auffällt, kann sich in großen GPU-Clustern erheblich verstärken. Bereits einzelne Verzögerungen reichen aus, damit Tausende Systeme aufeinander warten müssen. Die Folge sind Effizienzverluste, längere Trainingszeiten und eine schlechtere Auslastung hochspezialisierter Hardware.

Oder vereinfacht formuliert: In großen KI-Clustern zählt nicht nur Geschwindigkeit – sondern vor allem Konsistenz.

Genau diese Herausforderungen motivierten eine neue Entwicklungsrichtung für Ethernet: Kommunikation soll nicht nur schnell, sondern vor allem stabil, vorhersehbar und möglichst verlustfrei werden

Warum wenige langsame Verbindungen ganze KI-Cluster bremsen

Ein häufig unterschätzter Zusammenhang moderner Rechenzentren lautet: Große verteilte Systeme werden häufig vom langsamsten Teilnehmer bestimmt.

Gerade in hochgradig parallelen Umgebungen genügt bereits eine kleine Verzögerung einzelner Kommunikationspfade, um die Gesamteffizienz eines Systems spürbar zu reduzieren. Denn viele Prozesse müssen synchron abgeschlossen werden. Verzögert sich ein Teil der Kommunikation, entstehen Wartezeiten entlang der gesamten Verarbeitungskette.

Je größer ein Cluster wird, desto stärker wirkt dieser Effekt. Was in kleineren Umgebungen kaum auffällt, entwickelt sich bei Tausenden GPUs schnell zum strukturellen Problem. Selbst seltene Verzögerungen einzelner Verbindungen können sich vervielfachen und ganze Trainingsläufe ausbremsen.

Übertragen auf moderne KI-Rechenzentren bedeutet das: Nicht die durchschnittliche Netzwerkgeschwindigkeit entscheidet – sondern die Konsistenz tausender Kommunikationspfade. Gerade bei großen Sprachmodellen mit permanenter GPU-Synchronisation wird dies zum kritischen Erfolgsfaktor. Denn in hochgradig verteilten Trainingsumgebungen zählt nicht nur maximale Leistung, sondern vor allem die Fähigkeit eines Netzwerks, Kommunikation stabil, vorhersehbar und möglichst störungsfrei bereitzustellen.

Genau deshalb verschiebt sich der Fokus moderner Netzwerkentwicklung zunehmend: weg von maximalem Datendurchsatz – hin zu möglichst konsistenter, verlustarmer und deterministischer Kommunikation.

Das Ziel: Ethernet speziell für KI und HPC weiterentwickeln

Im Jahr 2023 gründeten mehrere große Technologieunternehmen das Ultra Ethernet Consortium (UEC). Das Ziel: Ethernet gezielt für hochskalierende KI- und HPC-Umgebungen optimieren.

Zu den beteiligten Unternehmen zählen unter anderem Netzwerkanbieter, Cloud-Betreiber, Halbleiterhersteller und Infrastrukturunternehmen. Die Grundidee besteht nicht darin, Ethernet vollständig neu zu erfinden.

Vielmehr versucht Ultra Ethernet gezielt jene Schwächen zu adressieren, die in extrem parallelen KI-Workloads sichtbar werden.

Der Fokus liegt dabei insbesondere auf:

KI-Trainingsclustern
GPU-Fabrics
High Performance Computing
verteilten Inferenzplattformen

Damit entsteht erstmals ein Ethernet-Ansatz, der sich nicht primär an klassischen Unternehmensnetzwerken orientiert, sondern gezielt an Anforderungen moderner AI-Fabrics.

Wie Ultra Ethernet Ethernet intelligenter machen soll

Im Kern verfolgt Ultra Ethernet mehrere technische Ansätze, um Netzwerke robuster, effizienter und besser auf hochgradig parallele KI-Workloads vorzubereiten. Dabei geht es nicht nur um mehr Bandbreite. Entscheidend wird vielmehr die Fähigkeit, Kommunikationsprobleme frühzeitig zu erkennen, Datenverkehr intelligenter zu steuern und Verzögerungen möglichst konsistent niedrig zu halten.

Denn moderne GPU-Cluster reagieren äußerst empfindlich auf Störungen. Schon geringe Überlastungen einzelner Netzwerkpfade können dazu führen, dass große Teile eines Trainingsclusters aufeinander warten müssen. Ultra Ethernet adressiert deshalb gezielt mehrere Schwächen klassischer Netzwerke.

Verbesserte Congestion Control

Eines der größten Probleme moderner KI-Netze entsteht durch Überlastsituationen. Treffen viele hochvolumige Datenströme gleichzeitig auf gemeinsame Netzwerkpfade, entstehen Warteschlangen, Paketverluste und unvorhersehbare Verzögerungen. Gerade in hochgradig parallelen GPU-Clustern können bereits kleinere Engpässe erhebliche Auswirkungen auf Synchronisationsprozesse haben.

Ultra Ethernet versucht solche Situationen deutlich früher zu erkennen und Kommunikationsströme intelligenter zu steuern. Ziel ist es, Überlastungen möglichst zu entschärfen, bevor sie sich auf Trainingsprozesse auswirken oder erneute Übertragungen erforderlich werden.

Der Fokus verschiebt sich damit grundlegend: weg von reaktiver Fehlerbehandlung – hin zu möglichst proaktiver Verkehrssteuerung.

Gerade in großen KI-Umgebungen wird dies entscheidend. Denn nicht einzelne Verbindungen bestimmen die Effizienz eines Clusters, sondern das Zusammenspiel Tausender paralleler Kommunikationspfade.

Erweiterte Telemetrie

Klassische Netzwerke liefern häufig nur begrenzte Transparenz über ihren aktuellen Zustand. In KI-Umgebungen reicht dies zunehmend nicht mehr aus. Ultra Ethernet setzt deshalb auf deutlich präzisere Echtzeitinformationen über Netzwerkzustände, Auslastung, Verzögerungen und mögliche Engpässe. Infrastrukturteams sollen Probleme erkennen können, bevor diese sich auf Trainingsprozesse auswirken.

Das Ziel lautet: Netzwerke nicht nur betreiben – sondern kontinuierlich verstehen. Gerade in großen GPU-Fabrics wird diese Transparenz zunehmend entscheidend.

Höhere Reliability

Moderne KI-Systeme sind auf stabile Kommunikation angewiesen. Schon kleinere Kommunikationsprobleme können Synchronisationsprozesse stören oder die Effizienz eines gesamten Clusters reduzieren. Ultra Ethernet adressiert deshalb gezielt die Zuverlässigkeit der Datenübertragung.

Kommunikation soll robuster werden, Paketverluste reduziert und Wiederholungsmechanismen intelligenter behandelt werden. Denn in KI-Umgebungen gilt zunehmend: Stabilität ist oft wichtiger als maximale Spitzengeschwindigkeit.

Niedrigere und konsistentere Latenzen

Nicht allein möglichst geringe Latenzen stehen im Fokus – sondern vor allem deren Vorhersagbarkeit. Gerade hochgradig parallele Trainingsverfahren reagieren empfindlich auf Schwankungen einzelner Kommunikationspfade. Ziel moderner KI-Netze ist daher nicht nur schnelle Kommunikation, sondern möglichst gleichmäßige Kommunikation.

Oder anders formuliert: Für KI zählt häufig nicht der schnellste Einzelwert, sondern die Verlässlichkeit tausender Kommunikationspfade.

Genau diese Kombination aus intelligenter Verkehrssteuerung, Transparenz und konsistenter Kommunikation macht Ultra Ethernet zu einem der derzeit spannendsten Ansätze moderner KI-Netzwerke.

Wird Ultra Ethernet InfiniBand verdrängen?

Genau an dieser Stelle lohnt sich eine nüchterne Einordnung: Aktuell entsteht rund um Ultra Ethernet erhebliche Aufmerksamkeit. Manche Stimmen interpretieren die Entwicklung bereits als Beginn des Endes von InfiniBand.

Eine solche Bewertung erscheint derzeit jedoch verfrüht. InfiniBand besitzt weiterhin erhebliche Vorteile in spezialisierten Hochleistungsumgebungen – insbesondere bei extrem niedrigen Latenzen und hochoptimierter Cluster-Kommunikation.

Gleichzeitig besitzt Ethernet starke strukturelle Vorteile:

offenes Ökosystem
breite Marktverfügbarkeit
Herstellerunabhängigkeit
Integration bestehender Infrastruktur
hohe Skalierbarkeit

Wahrscheinlicher erscheint daher aktuell kein vollständiger Technologiewechsel, sondern eine stärkere Differenzierung.

InfiniBand dürfte in hochspezialisierten HPC- und Spitzenleistungsumgebungen relevant bleiben. Gleichzeitig könnte modernes Ethernet – insbesondere mit Ultra Ethernet – in vielen KI-Rechenzentren zunehmend an Bedeutung gewinnen.

Die entscheidende Frage lautet daher vermutlich nicht: Ethernet oder InfiniBand?, sondern vielmehr: Für welchen Workload eignet sich welche Architektur langfristig besser?

Und genau diese Frage verschärft sich weiter, wenn Datenmengen exponentiell wachsen und selbst moderne Netzwerke an physikalische Grenzen stoßen.

Damit rückt die nächste Entwicklung in den Fokus: Warum steigen Ethernet-Geschwindigkeiten inzwischen auf 800 Gigabit und perspektivisch sogar 1,6 Terabit pro Sekunde?

Von 100G zu 800G und 1.6T – Warum Netzwerke explodieren

Wer aktuelle Roadmaps großer Netzwerkhersteller betrachtet, stößt schnell auf beeindruckende Zahlen: 100 Gigabit, 400 Gigabit, 800 Gigabit und perspektivisch sogar 1,6 Terabit pro Sekunde.

Auf den ersten Blick wirkt diese Entwicklung beinahe absurd. Denn viele Unternehmensnetzwerke arbeiten bis heute erfolgreich mit 1 oder 10 Gigabit Ethernet. Selbst moderne Datacenter setzen vielerorts noch auf 25G-, 40G- oder 100G-Infrastrukturen. Warum also scheint die Netzwerkindustrie plötzlich Geschwindigkeiten anzustreben, die vor wenigen Jahren kaum vorstellbar wirkten?

Die einfache Antwort lautet: Weil künstliche Intelligenz Netzwerke in bislang unbekannte Größenordnungen zwingt.

Die eigentliche Erklärung ist jedoch deutlich komplexer. Denn die steigenden Bandbreiten sind weniger Ausdruck technologischer Übertreibung als vielmehr eine direkte Folge fundamentaler Veränderungen moderner Rechenzentren.

Die Ethernet-Roadmap: Von 100G zu 1.6T

Ethernet entwickelte sich über Jahrzehnte evolutionär. Lange Zeit verliefen Geschwindigkeitssprünge vergleichsweise moderat: von Fast Ethernet über Gigabit Ethernet bis hin zu 10G und 40G. Mit dem Aufstieg großer Cloud-Plattformen und Hyperscaler beschleunigte sich diese Entwicklung jedoch erheblich.

Heute dominieren in modernen Rechenzentren zunehmend neue Geschwindigkeitsklassen:

100G Ethernet: lange Zeit Standard moderner Datacenter-Uplinks
400G Ethernet: zunehmend etabliert in großen Cloud- und KI-Umgebungen
800G Ethernet: aktuell im Ausbau größerer AI-Fabrics
1.6T Ethernet: bereits in Entwicklung für zukünftige KI-Cluster

Perspektivisch diskutiert die Branche sogar 3.2 Terabit Ethernet.

Diese Zahlen wirken zunächst wie ein Wettrüsten der Hardwareindustrie. Tatsächlich spiegeln sie jedoch einen grundlegenden Wandel der Kommunikationsanforderungen wider. Denn nicht einzelne Systeme werden schneller – ganze Infrastrukturen kommunizieren intensiver als jemals zuvor.

Warum KI-Netzwerke plötzlich explodieren

Der wichtigste Treiber moderner Netzwerkentwicklung lautet nicht: Mehr Geschwindigkeit um ihrer selbst willen. Entscheidend ist vielmehr die zunehmende Parallelität künstlicher Intelligenz.

Je größer Modelle werden, desto stärker wächst die Kommunikationslast zwischen beteiligten Systemen. Mehrere Faktoren verstärken diesen Effekt gleichzeitig.

Größere Modelle erzeugen mehr Datenaustausch

Frühe Machine-Learning-Modelle arbeiteten häufig noch in überschaubaren Größenordnungen. Große Sprachmodelle bestehen heute dagegen aus Milliarden oder sogar Billionen Parametern. Diese Parameter müssen zwischen GPUs kontinuierlich synchronisiert werden.

Je größer ein Modell wird, desto stärker wächst der interne Kommunikationsaufwand. Der Skalierungsfaktor betrifft damit längst nicht mehr nur Compute-Leistung – sondern zunehmend auch Netzwerkkapazität.

Mehr GPUs erzeugen exponentielle Kommunikationskomplexität

Ein weiterer Faktor liegt in der wachsenden Zahl beteiligter Systeme. Früher trainierten einzelne Server Modelle lokal. Heute arbeiten häufig Tausende GPUs parallel zusammen. Damit steigt nicht nur die verfügbare Rechenleistung. Es wächst zugleich die Anzahl potenzieller Kommunikationsbeziehungen.

Vereinfacht formuliert: Mehr GPUs bedeuten nicht nur mehr Compute – sondern vor allem mehr Koordination. Je größer Cluster werden, desto stärker steigt deshalb der Bedarf an stabiler, hochperformanter Netzwerkkommunikation.

Mehr Synchronisation erzeugt mehr East-West-Traffic

Gerade verteilte Trainingsverfahren erzeugen enorme Mengen horizontalen Netzwerkverkehrs. Trainingszustände müssen synchronisiert, Zwischenergebnisse ausgetauscht und Speicherzugriffe koordiniert werden. Inference-Plattformen bewegen zusätzlich große Datenmengen zwischen Compute-, Storage- und Netzwerkebene.

Die Folge: KI-Netzwerke transportieren längst nicht mehr nur Daten – sie koordinieren Berechnung. Damit wächst East-West-Traffic in Größenordnungen, die klassische Datacenter-Architekturen ursprünglich nie adressieren mussten.

Warum Bandbreite allein die falsche Perspektive ist

Trotz aller beeindruckenden Zahlen wäre es jedoch falsch, moderne KI-Netze ausschließlich über Gigabit- oder Terabitwerte zu bewerten. Denn mehr Bandbreite allein garantiert noch keine bessere Performance.

Ein Netzwerk mit 800 Gigabit pro Sekunde kann ineffizient arbeiten, wenn Überlastsituationen entstehen, Paketlaufzeiten stark schwanken oder Synchronisationsprozesse verzögert werden.

Gerade KI-Cluster reagieren empfindlich auf:

Latenzen
Tail Latency
Congestion
Paketverluste
ungleichmäßige Kommunikationspfade

Oder anders formuliert: Geschwindigkeit wird zunehmend zur Grundvoraussetzung – Effizienz bleibt der eigentliche Wettbewerbsvorteil.

Genau deshalb reicht der Ausbau reiner Bandbreite künftig nicht mehr aus. Netzwerke müssen nicht nur schneller, sondern gleichzeitig intelligenter, vorhersehbarer und stabiler werden.

Und damit rückt eine weitere Herausforderung in den Fokus: Wie lassen sich hochperformante KI-Netze überhaupt sinnvoll segmentieren und isolieren, wenn Tausende Systeme gleichzeitig kommunizieren?

Exkurs: Warum Geschwindigkeit allein nicht reicht

Beim Blick auf moderne KI-Rechenzentren entsteht leicht ein naheliegender Eindruck: Mehr Bandbreite bedeutet automatisch mehr Leistung. 400 Gigabit, 800 Gigabit oder perspektivisch sogar 1,6 Terabit pro Sekunde wirken zunächst wie die logische Antwort auf immer größere KI-Modelle und wachsende GPU-Cluster.

Die Realität moderner KI-Infrastrukturen ist jedoch deutlich komplexer. Denn hohe Bandbreite allein garantiert noch keine hohe Performance. Oder vereinfacht formuliert: Ein sehr schnelles Netzwerk kann trotzdem ineffizient arbeiten.

Gerade in hochgradig parallelen KI-Umgebungen entscheidet nicht nur, wie viele Daten transportiert werden können, sondern vor allem wie konsistent, vorhersehbar und störungsfrei Kommunikation stattfindet.

Bandbreite ist nur ein Teil der Gleichung

Bandbreite beschreibt zunächst lediglich, wie viele Daten theoretisch pro Zeiteinheit übertragen werden können. Doch gerade bei verteilten Trainingsverfahren entsteht häufig ein anderes Problem: Systeme müssen gleichzeitig kommunizieren – nicht nur schnell.

Selbst ein Netzwerk mit enormen Kapazitätsreserven kann ineffizient werden, wenn Kommunikationspfade ungleich ausgelastet sind, Überlastsituationen entstehen oder einzelne Verzögerungen Synchronisationsprozesse ausbremsen.

Gerade deshalb verschiebt sich die Perspektive moderner KI-Netze zunehmend: weg von maximaler Geschwindigkeit – hin zu möglichst konsistenter Kommunikation.

Latenz – Warum Reaktionszeit wichtiger wird

Ein entscheidender Faktor liegt in der Latenz. Gemeint ist die Zeit, die Daten benötigen, um zwischen beteiligten Systemen übertragen zu werden. In klassischen Unternehmensnetzwerken fällt eine leicht erhöhte Latenz oft kaum auf. KI-Workloads reagieren jedoch deutlich empfindlicher. Denn Tausende GPUs müssen permanent Ergebnisse austauschen, Modellparameter synchronisieren und gemeinsame Berechnungsschritte koordinieren.

Je häufiger Kommunikation erforderlich wird, desto stärker wirken sich Verzögerungen aus. Gerade große Sprachmodelle reagieren deshalb häufig sensibler auf Kommunikationslatenz als auf reine Bandbreite.

Determinismus – Warum Vorhersagbarkeit wichtiger wird als Spitzenwerte

Ebenso wichtig wird ein Begriff, der in klassischen Netzwerken häufig wenig Aufmerksamkeit erhält: Determinismus. Gemeint ist die Fähigkeit eines Netzwerks, Kommunikationszeiten möglichst vorhersehbar und konsistent bereitzustellen.

Denn für KI-Systeme zählt oft weniger der schnellste Einzelwert als eine möglichst gleichmäßige Kommunikation. Einzelne Ausreißer – etwa durch Congestion oder Queueing – können ganze Synchronisationsprozesse verzögern. Oder anders formuliert: Für KI zählt nicht nur Geschwindigkeit – sondern Verlässlichkeit.

Congestion Control – Wenn das Netzwerk intelligent reagieren muss

Gerade große GPU-Cluster erzeugen enorme Mengen gleichzeitiger Kommunikation. Treffen viele Datenströme auf gemeinsame Netzwerkpfade, entstehen lokale Überlastungen. An dieser Stelle wird Congestion Control entscheidend.

Moderne Verfahren wie ECN, PFC oder adaptive Verkehrssteuerung versuchen, Engpässe frühzeitig sichtbar zu machen und Kommunikationspfade dynamisch anzupassen.

Ziel ist es, Probleme möglichst zu entschärfen, bevor sich Überlastungen auf große Teile eines Clusters auswirken. Denn selbst kleinere lokale Störungen können bei Tausenden parallel arbeitenden GPUs erhebliche Auswirkungen entfalten.

Paketverlust – Warum Retransmits plötzlich teuer werden

In klassischen Netzwerken gilt Paketverlust häufig als tolerierbares Ereignis. Geht ein Paket verloren, wird es erneut übertragen. Für KI-Workloads kann dieses Verhalten jedoch problematisch werden.

Denn bei hochgradig synchronisierten Trainingsprozessen genügt bereits eine einzelne Verzögerung, um andere Systeme warten zu lassen. Retransmits erhöhen damit nicht nur Kommunikationszeiten, sondern können indirekt die Effizienz ganzer GPU-Cluster reduzieren.

Gerade deshalb investieren moderne KI-Netze erheblichen Aufwand in möglichst verlustarme Kommunikation.

Die eigentliche Erkenntnis moderner KI-Netze

Die wichtigste Lektion lautet deshalb: Bandbreite ist wichtig – aber sie allein entscheidet nicht über Performance. Erst das Zusammenspiel aus geringer Latenz, vorhersehbarer Kommunikation, intelligenter Congestion Control und möglichst geringem Paketverlust entscheidet darüber, wie effizient große KI-Cluster tatsächlich arbeiten. Das schnellste Netzwerk ist nicht automatisch das beste – sondern das verlässlichste.

VXLAN und EVPN – Warum Segmentierung auch im KI-Datacenter wichtig bleibt

Moderne KI-Rechenzentren benötigen enorme Bandbreiten, hochperformante Kommunikationspfade und möglichst geringe Latenzen. Doch Geschwindigkeit allein reicht nicht aus. Denn mit wachsender Skalierung steigt eine weitere Herausforderung: Wie lassen sich Tausende Systeme effizient organisieren, voneinander trennen und sicher betreiben?

Gerade in KI-Umgebungen teilen sich häufig viele unterschiedliche Workloads dieselbe physische Infrastruktur. Verschiedene Teams trainieren Modelle parallel, externe Kund:innen greifen auf GPU-Ressourcen zu und Cloud-Plattformen stellen Rechenleistung dynamisch bereit. Damit entsteht eine Anforderung, die klassische Netzwerke schnell an Grenzen bringt: skalierbare Segmentierung.

Warum klassische VLANs im KI-Datacenter an Grenzen stoßen

Über viele Jahre bildeten Virtual Local Area Networks (VLANs) die Grundlage logischer Netzwerksegmentierung. Der Ansatz ist bewährt: Unterschiedliche Systeme werden logisch voneinander getrennt, obwohl sie dieselbe physische Infrastruktur nutzen. Sicherheitsrichtlinien lassen sich sauber umsetzen, Broadcast-Domänen begrenzen und Netzwerke übersichtlich strukturieren.

Für klassische Unternehmensumgebungen funktioniert dieses Modell bis heute zuverlässig. In modernen KI-Rechenzentren entstehen jedoch neue Anforderungen.

Skalierung

Klassische VLANs besitzen technische Grenzen. Ein wesentlicher Faktor liegt in der verfügbaren Adressierung: VLANs arbeiten mit einer 12-Bit-VLAN-ID, wodurch theoretisch maximal 4.096 VLANs möglich sind – praktisch stehen aufgrund reservierter Bereiche rund 4.094 nutzbare Segmente zur Verfügung.

Für klassische Unternehmensnetzwerke erscheint diese Zahl zunächst großzügig. In modernen Cloud- und KI-Rechenzentren entstehen jedoch völlig andere Größenordnungen.

Dort wachsen die Anforderungen durch:

Tausende virtuelle Workloads
dynamisch bereitgestellte GPU-Ressourcen
isolierte Entwicklungs- und Trainingsumgebungen
Multi-Tenant-Architekturen
verteilte AI-Fabrics über mehrere Cluster hinweg

Zudem koppeln klassische VLANs logische Netzsegmente vergleichsweise eng an physische Infrastrukturen. Workloads lassen sich dadurch nur begrenzt flexibel verschieben oder standortübergreifend konsistent betreiben.

Mit wachsender Größe und Dynamik moderner KI-Plattformen wird die Segmentierungslogik dadurch schnell komplex und schwer skalierbar. Besonders große Cloud- und KI-Umgebungen benötigen deshalb deutlich flexiblere Modelle zur logischen Netzwerksegmentierung.

Multi-Tenant-Umgebungen

Viele moderne GPU-Plattformen arbeiten heute mandantenfähig (Multi-Tenant). Der Hintergrund ist wirtschaftlich naheliegend: Hochleistungs-GPUs zählen zu den teuersten Infrastrukturkomponenten moderner Rechenzentren. Eine dedizierte Umgebung für jedes einzelne Team oder Unternehmen wäre in vielen Fällen wirtschaftlich kaum sinnvoll.

Stattdessen teilen sich unterschiedliche Benutzer:innen dieselbe physische Infrastruktur.

Dabei kann es sich beispielsweise handeln um:

verschiedene Unternehmen auf einer GPU-as-a-Service-Plattform
Entwicklungs- und Forschungsteams innerhalb eines Konzerns
parallel betriebene Trainings- und Inferenzumgebungen
isolierte Kundenprojekte in Cloud-Umgebungen

Die Herausforderung liegt dabei nicht in der gemeinsamen Nutzung selbst, sondern in der sicheren Trennung. Denn obwohl dieselben Switches, GPU-Cluster und Speichersysteme genutzt werden, dürfen Trainingsdaten, Modelle oder Workloads anderer Mandanten weder sichtbar noch beeinflussbar sein.

Netzwerke müssen deshalb zwei scheinbar gegensätzliche Anforderungen gleichzeitig erfüllen: gemeinsame physische Infrastruktur ermöglichen – und zugleich strikte logische Isolation sicherstellen.

Hinzu kommt eine weitere Komplexität: KI-Workloads sind hochdynamisch. GPU-Ressourcen werden je nach Bedarf verschoben, skaliert oder kurzfristig bereitgestellt. Trainingsumgebungen entstehen temporär und verschwinden nach Abschluss eines Projekts wieder. Statische Segmentierungsmodelle geraten dabei schnell an Grenzen.

Gerade deshalb gewinnen logisch entkoppelte Overlay-Netzwerke wie VXLAN / EVPN in modernen KI-Rechenzentren zunehmend an Bedeutung. Denn sie ermöglichen Mandantenfähigkeit, Isolation und Skalierung, ohne jede Änderung physisch neu planen zu müssen.

GPU-as-a-Service

Besonders sichtbar werden diese Herausforderungen beim Modell GPU-as-a-Service (GPUaaS). Ähnlich wie virtuelle Maschinen oder Cloud-Storage werden GPU-Ressourcen dabei nicht mehr zwingend lokal betrieben, sondern bedarfsgerecht als Dienst bereitgestellt. Unternehmen, Forschungseinrichtungen oder Entwicklungsteams buchen Rechenleistung dynamisch – häufig nur für die Dauer eines Trainingslaufs oder einer Inferenzaufgabe.

Im Hintergrund verteilen Anbieter diese Workloads oft flexibel über mehrere Cluster, Racks oder sogar verschiedene Rechenzentren hinweg. Für Nutzer:innen soll dieser Infrastrukturaufwand jedoch möglichst unsichtbar bleiben. Die Erwartung lautet: eine konsistente, sichere und logisch getrennte GPU-Umgebung – unabhängig davon, wo die zugrunde liegende Hardware tatsächlich betrieben wird.

Genau hier geraten klassische VLAN-Konzepte schnell an praktische Grenzen. Denn GPUaaS-Umgebungen erfordern häufig:

dynamische Bereitstellung neuer Netzwerksegmente
standortübergreifende Workload-Mobilität
sichere Isolation unterschiedlicher Mandanten
flexible Skalierung über große Spine-Leaf-Fabrics hinweg

Klassische VLANs koppeln logische Netzsegmente jedoch vergleichsweise eng an physische Netzwerkstrukturen. Jede größere Änderung erzeugt zusätzlichen administrativen Aufwand und reduziert die Flexibilität dynamischer Plattformen.

VXLAN- und EVPN-Architekturen lösen dieses Problem deutlich eleganter. Da logische Netzwerksegmente von der physischen Infrastruktur entkoppelt werden, lassen sich GPU-Ressourcen deutlich flexibler bereitstellen, verschieben und skalieren – ohne die darunterliegende Fabric grundlegend verändern zu müssen. Gerade deshalb entwickelt sich GPU-as-a-Service zunehmend zu einem der wichtigsten Praxisbeispiele moderner Overlay-Netzwerke im KI-Rechenzentrum.

Warum VXLAN und EVPN im KI-Datacenter an Bedeutung gewinnen

Genau an dieser Stelle gewinnen VXLAN (Virtual Extensible LAN) und EVPN (Ethernet VPN) zunehmend an Bedeutung. Während VLANs physische Netzwerkgrenzen vergleichsweise eng an Standorte koppeln, ermöglichen VXLAN- und EVPN-Architekturen deutlich flexiblere Modelle. Vereinfacht ausgedrückt: Netzwerke werden logischer – und weniger abhängig von physischer Infrastruktur.

Overlay Networks statt physischer Begrenzung

VXLAN arbeitet mit sogenannten Overlay-Netzwerken. Dabei werden logische Netzwerksegmente über bestehende physische Infrastrukturen gelegt. Systeme können logisch derselben Umgebung angehören, obwohl sie physisch auf unterschiedlichen Hosts, Racks oder sogar Standorten betrieben werden.

Gerade in Spine-Leaf-Architekturen großer Datacenter spielt dieser Ansatz seine Stärken aus. Denn GPU-Cluster müssen häufig dynamisch wachsen, Workloads verschieben oder neue Ressourcen flexibel integrieren können.

Skalierbare Segmentierung

Ein wesentlicher Vorteil moderner Overlay-Netze liegt in ihrer Skalierbarkeit. Während klassische VLANs nur begrenzte Segmentierungsräume bereitstellen, ermöglichen VXLAN-Umgebungen erheblich größere logische Netzwerkstrukturen.

Für große KI-Infrastrukturen wird dies entscheidend. Denn wenn Tausende GPUs, Speichersysteme und KI-Services parallel betrieben werden, genügt klassische Netzsegmentierung oft nicht mehr.

Mandantenfähigkeit in AI Fabrics

Besonders relevant wird VXLAN und EVPN in mandantenfähigen KI-Umgebungen. Unterschiedliche Teams oder Kund:innen sollen dieselbe Infrastruktur nutzen können – ohne sich gegenseitig zu beeinflussen.

Netzwerkisolation wird damit nicht nur Sicherheitsmaßnahme, sondern Geschäftsgrundlage. Gerade Anbieter von GPU-as-a-Service-Plattformen setzen deshalb zunehmend auf VXLAN / EVPN-Fabrics, um logische Trennung, Skalierbarkeit und Flexibilität gleichzeitig zu erreichen.

Praxisbeispiel: GPU-as-a-Service

Die wirtschaftliche Realität moderner KI führt zunehmend zu einem Modell, das an klassische Cloud-Dienste erinnert: Statt eigene GPU-Cluster aufzubauen, beziehen Unternehmen Rechenleistung bedarfsgerecht als Service. Ähnlich wie virtuelle Maschinen oder Cloud-Storage werden GPU-Ressourcen dynamisch bereitgestellt.

Damit dieses Modell funktioniert, müssen Betreiber jedoch mehrere Anforderungen gleichzeitig erfüllen:

sichere Isolation unterschiedlicher Kund:innen
flexible Bereitstellung neuer Ressourcen
dynamische Skalierung
konsistente Netzwerkperformance

VXLAN- und EVPN-Architekturen schaffen hierfür die notwendige Grundlage. Denn sie erlauben es, physische Infrastruktur flexibel in logisch getrennte Netzräume zu überführen – ohne jede Änderung an der Hardware neu planen zu müssen.

Wer die technische Entwicklung von VLAN zu VXLAN näher nachvollziehen möchte, findet in meinem Beitrag Von VLAN zu VXLAN – Segmentierung im Cisco-Netzwerk im Wandel der Zeit eine ausführliche Einordnung der technologischen Evolution und praktischen Hintergründe.

KI braucht nicht nur Geschwindigkeit – sondern auch Isolation

Die Diskussion um KI-Netzwerke konzentriert sich häufig auf Bandbreite, Latenz oder GPU-Leistung. Diese Perspektive greift jedoch zu kurz. Denn moderne KI-Rechenzentren müssen nicht nur schnell sein – sondern zugleich sicher, skalierbar und flexibel.

Gerade in mandantenfähigen Umgebungen wird Segmentierung deshalb zu einem zentralen Bestandteil der Infrastrukturstrategie. Oder anders formuliert: KI braucht nicht nur Geschwindigkeit – sondern auch kontrollierte Isolation.

Damit rückt zum Abschluss eine entscheidende Frage in den Mittelpunkt: Wie verändert künstliche Intelligenz das Rechenzentrum insgesamt – und welche Architektur dürfte sich langfristig durchsetzen?

KI-Netzwerke: Warum Congestion wichtiger ist als Bandbreite

Wer über moderne KI-Netzwerke spricht, denkt häufig zuerst an immer höhere Geschwindigkeiten. 400 Gigabit, 800 Gigabit oder perspektivisch sogar 1,6 Terabit pro Sekunde scheinen den Eindruck zu vermitteln, dass die Zukunft vor allem eine Frage immer größerer Bandbreite sei.

Diese Perspektive greift jedoch zu kurz. Denn in vielen modernen KI-Rechenzentren liegt das eigentliche Problem nicht primär in zu wenig Bandbreite – sondern in ihrer Verteilung.

Oder vereinfacht formuliert: Nicht fehlende Geschwindigkeit bremst KI aus, sondern schlecht koordinierte Kommunikation.

Gerade in hochgradig parallelen GPU-Clustern entscheidet deshalb nicht allein die maximale Übertragungsrate über die Gesamtleistung, sondern die Fähigkeit eines Netzwerks, Datenverkehr effizient zu organisieren.

Warum Bandbreite allein wenig über Performance aussagt

Auf den ersten Blick erscheint die Rechnung plausibel: Mehr Bandbreite = schnellere Kommunikation = leistungsfähigere KI. In der Praxis funktionieren große KI-Cluster jedoch deutlich komplexer. Denn moderne Trainingsumgebungen erzeugen keine gleichmäßigen Datenströme. Stattdessen entstehen hochdynamische Kommunikationsmuster mit stark schwankenden Lasten, tausenden parallelen Verbindungen und massiven Synchronisationsanforderungen. Selbst extrem leistungsfähige Netzwerke können dadurch an Grenzen geraten.

Das Problem: Viele Datenströme konkurrieren gleichzeitig um dieselben Ressourcen. Dadurch entstehen Überlastsituationen – in der Netzwerktechnik häufig als Congestion bezeichnet. Im Kern bedeutet dies: Das Netzwerk besitzt zwar grundsätzlich genügend Kapazität, verteilt diese jedoch in bestimmten Situationen nicht effizient genug.

Elephant Flows – Wenn Lastverteilung wichtiger wird als Bandbreite

Wie bereits im Zusammenhang mit Ultra Ethernet beschrieben, erzeugen moderne KI-Workloads regelmäßig sogenannte Elephant Flows – große, kontinuierliche Datenströme, die erhebliche Bandbreiten über längere Zeiträume beanspruchen. Gerade in KI-Rechenzentren entstehen solche Verkehrsprofile permanent: bei GPU-Synchronisationen, verteiltem Modelltraining oder umfangreichen Storage-Zugriffen.

Die eigentliche Herausforderung liegt dabei jedoch weniger in der absoluten Datenmenge als in ihrer Verteilung. Treffen mehrere Elephant Flows gleichzeitig auf gemeinsame Netzwerkpfade, entstehen lokale Überlastungen. Einzelne Links oder Switches werden stark beansprucht, während an anderer Stelle weiterhin freie Kapazitäten verfügbar wären. Das Problem: Das Netzwerk besitzt oft genügend Gesamtkapazität – nutzt sie aber nicht gleichmäßig.

Gerade in Spine-Leaf-Architekturen mit vielen parallelen Kommunikationsbeziehungen kann sich dieser Effekt erheblich verstärken. Werden bestimmte Pfade überproportional belastet, entstehen sogenannte Hotspots: lokale Engpässe innerhalb einer eigentlich hochperformanten Fabric. Die Folge sind Warteschlangen, steigende Paketlaufzeiten und zunehmend inkonsistente Kommunikationspfade.

Für klassische Anwendungen bleibt dies häufig unkritisch – KI-Workloads reagieren dagegen empfindlich. Denn synchronisierte Trainingsverfahren warten häufig auf Ergebnisse anderer Systeme. Verzögert sich ein Teil der Kommunikation durch lokale Congestion, kann dies ganze GPU-Verbünde ausbremsen – obwohl die verfügbare Gesamtbandbreite des Netzwerks theoretisch ausreichend wäre.

Oder vereinfacht formuliert: Nicht zu wenig Netzwerkleistung wird zum Problem – sondern ihre ungleichmäßige Verteilung.

Incast und Queueing – Wenn zu viele Systeme gleichzeitig sprechen

Ein weiteres Problem moderner KI-Netzwerke entsteht durch Incast. Dabei senden viele Systeme gleichzeitig Daten an denselben Empfänger – beispielsweise wenn zahlreiche GPUs Ergebnisse an einen gemeinsamen Verarbeitungsschritt zurückmelden.

Während klassische Anwendungen solche Lastspitzen oft tolerieren, können KI-Workloads empfindlich reagieren. Denn plötzlich konkurrieren viele Kommunikationspfade gleichzeitig um begrenzte Pufferkapazitäten in Switches.

Die Folge:

Warteschlangen (Queueing)
Verzögerungen
Paketverluste
erneute Übertragungen

Besonders kritisch wird dies in synchronisierten Trainingsverfahren. Denn oft genügt bereits ein einzelner überlasteter Kommunikationspfad, um ganze Verarbeitungsschritte zu verzögern.

Warum GPUs aufeinander warten müssen

Gerade große Sprachmodelle arbeiten hochgradig synchronisiert. Viele GPUs berechnen unterschiedliche Teile eines Modells parallel und müssen ihre Ergebnisse anschließend miteinander abgleichen. Erst wenn alle beteiligten Systeme ihren Berechnungsschritt abgeschlossen haben, kann der nächste Trainingszyklus beginnen.

Dadurch entsteht ein häufig unterschätzter Effekt: Nicht die schnellsten Systeme bestimmen die Geschwindigkeit – sondern der langsamste Teilnehmer. Bereits einzelne langsamere Nodes, überlastete Switch-Pfade oder verzögerte Speicherzugriffe können deshalb den gesamten Trainingslauf ausbremsen.

Das Problem ähnelt einer Fertigungslinie: Selbst wenn nahezu alle Produktionsschritte effizient arbeiten, reduziert eine einzige Verzögerung die Geschwindigkeit der gesamten Kette. Je größer ein KI-Cluster wird, desto stärker wirken sich solche Effekte aus.

Moderne Ansätze gegen Congestion

Genau deshalb konzentriert sich moderne Netzwerkentwicklung zunehmend auf intelligentere Verkehrssteuerung. Ziel ist es, Überlastsituationen möglichst früh zu erkennen und Kommunikationsströme dynamisch anzupassen.

Mehrere Verfahren gewinnen dabei an Bedeutung.

ECN – Überlastung erkennen, bevor Pakete verloren gehen

Explicit Congestion Notification (ECN) versucht, Überlastsituationen frühzeitig sichtbar zu machen. Statt Paketverluste erst nachträglich zu kompensieren, signalisiert das Netzwerk drohende Engpässe bereits während der Kommunikation. Systeme können ihre Datenströme dadurch frühzeitig anpassen. Der Vorteil: weniger Retransmits und stabilere Kommunikation.

PFC – Verlustarme Kommunikation in Ethernet-Netzen

Priority Flow Control (PFC) verfolgt einen anderen Ansatz. Bestimmte Datenströme lassen sich priorisieren und bei drohender Überlastung gezielt pausieren, anstatt Pakete zu verwerfen. Gerade in RoCEv2-Umgebungen spielt dies eine wichtige Rolle. Das Ziel: möglichst verlustarme Kommunikation trotz hoher Last.

Adaptive Congestion Control

Moderne KI-Netze reagieren zunehmend dynamisch auf Veränderungen. Anstatt starre Regeln zu verwenden, analysieren Systeme aktuelle Verkehrsprofile und passen Kommunikationsströme laufend an. Damit verschiebt sich der Fokus: weg von statischer Netzwerkkonfiguration – hin zu adaptiver Optimierung.

Sprayed Traffic – Last intelligenter verteilen

Ein weiterer moderner Ansatz liegt in sogenanntem Sprayed Traffic. Anstatt einzelne große Datenströme über wenige feste Pfade zu transportieren, werden Datenpakete intelligenter auf mehrere verfügbare Wege verteilt. Gerade in Spine-Leaf-Fabrics hilft dieser Ansatz dabei, Last gleichmäßiger zu verteilen und lokale Überlastungen zu reduzieren.

Warum KI-Netzwerke neu denken müssen

Die wichtigste Erkenntnis moderner KI-Infrastrukturen lautet deshalb: Mehr Bandbreite allein löst das Problem nicht. Selbst die schnellste Infrastruktur bleibt ineffizient, wenn Kommunikation schlecht verteilt wird oder einzelne Verzögerungen ganze Cluster ausbremsen.

Damit verschiebt sich die Perspektive auf Netzwerke grundlegend. Nicht maximale Geschwindigkeit wird zum entscheidenden Erfolgsfaktor – sondern die Fähigkeit, Kommunikation stabil, vorhersehbar und intelligent zu orchestrieren.

Oder anders formuliert: Das Netzwerk der KI-Zukunft wird nicht nur schneller – sondern vor allem koordinierter.

Fazit: Warum KI das Datacenter neu erfindet

Künstliche Intelligenz verändert Rechenzentren grundlegender, als es viele frühere Technologiewellen getan haben. Virtualisierung veränderte die Serverlandschaft. Cloud Computing verschob Infrastruktur in neue Betriebsmodelle. Containerisierung machte Anwendungen flexibler und verteilter. Doch künstliche Intelligenz greift noch tiefer in die Architektur moderner IT ein. Denn KI verändert nicht nur Anwendungen oder Betriebsmodelle – sie verändert die physikalischen und logischen Grundlagen digitaler Infrastruktur.

Das wird besonders im Netzwerk sichtbar. Über viele Jahre galt Bandbreite als zentrale Messgröße moderner Rechenzentren. Doch KI verschiebt den Fokus deutlich. Entscheidend wird nicht länger allein, wie schnell einzelne Systeme kommunizieren können, sondern wie effizient Tausende Systeme parallel zusammenarbeiten.

Anders gesagt: Künstliche Intelligenz macht das Netzwerk vom reinen Transportweg zur kritischen Rechenressource. Genau daraus entstehen derzeit fundamentale Architekturveränderungen.

Klassische Netzwerkmodelle reichen nicht mehr aus

Die vergangenen Kapitel haben gezeigt, dass traditionelle Datacenter-Architekturen zunehmend an Grenzen stoßen. Klassische Drei-Schichten-Modelle wurden für eine Welt entworfen, in der Anwendungen überwiegend zentral betrieben wurden und Netzwerkverkehr primär zwischen Benutzer:innen und Servern stattfand.

KI-Rechenzentren funktionieren grundlegend anders. Heute dominiert East-West-Traffic: GPU-Cluster synchronisieren Trainingszustände, Speichersysteme liefern kontinuierlich Datenströme und verteilte KI-Workloads erzeugen enorme Mengen horizontaler Kommunikation.

Damit verändert sich die Architektur zwangsläufig. Spine-Leaf-Netzwerke entwickeln sich zunehmend zum Standard moderner KI-Rechenzentren, weil sie vorhersehbare Kommunikationspfade, geringe Latenzen und horizontale Skalierung ermöglichen.

Ethernet erlebt eine unerwartete Renaissance

Lange Zeit galt die Gleichung: Maximale Leistung = InfiniBand. Diese Sichtweise bleibt in vielen spezialisierten HPC- und Hochleistungsumgebungen weiterhin nachvollziehbar. Gerade dort, wo minimale Latenzen und maximal deterministische Kommunikation entscheidend sind, besitzt InfiniBand weiterhin erhebliche Stärken.

Gleichzeitig verändert sich der Markt. Hyperscaler und große KI-Plattformen denken zunehmend in anderen Größenordnungen. Skalierung, Offenheit und wirtschaftliche Betriebsmodelle gewinnen an Bedeutung.

Genau deshalb erlebt Ethernet derzeit eine bemerkenswerte Renaissance. Moderne Ethernet-Fabrics entwickeln sich zunehmend weiter: höhere Bandbreiten, intelligente Verkehrssteuerung, verbesserte Telemetrie und Technologien wie RoCEv2 oder Ultra Ethernet schließen historische Schwächen Schritt für Schritt.

Die eigentliche Frage lautet deshalb heute weniger: Ethernet oder InfiniBand?, sondern vielmehr: Welche Architektur eignet sich langfristig für welche Form von KI-Infrastruktur?

KI verändert Netzwerke stärker als viele frühere Technologiewellen

Vielleicht liegt genau hier die wichtigste Erkenntnis dieses Beitrags: KI erzeugt nicht einfach mehr Verkehr. KI verändert die Regeln. Denn moderne AI-Fabrics benötigen nicht nur hohe Geschwindigkeiten, sondern vor allem:

konsistente Kommunikation
möglichst geringe und vorhersehbare Latenzen
intelligente Lastverteilung
skalierbare Segmentierung
hochgradig parallele Kommunikation

Damit wird klar: Das Netzwerk der KI-Zukunft muss nicht nur schneller, sondern vor allem intelligenter werden. Selbst die heute entstehenden Architekturen könnten sich langfristig nur als Zwischenstufe erweisen.

Denn bereits jetzt arbeiten Forschungseinrichtungen, Hyperscaler und Hardwarehersteller an neuen Ansätzen: optische Interconnects, Silicon Photonics, co-packaged optics, verlustärmere Kommunikationsverfahren und zunehmend autonome Netzwerksteuerung.

Die Idee dahinter ist ebenso faszinierend wie ambitioniert: Daten künftig möglichst ohne klassische elektrische Engpässe transportieren. Doch selbst modernste Ethernet-Fabrics könnten langfristig nur ein Zwischenschritt auf dem Weg dorthin sein.

Im dritten Teil dieser Blogserie geht es deshalb um die nächste Evolutionsstufe moderner Netzwerke: Der Traum vom Glas – Warum selbst modernste Netzwerke noch elektrisch denken und wie Photonik die Zukunft verändern könnte.

Quellenangaben

(Abgerufen am 13.06.2026)

Weiterlesen hier im Blog

Warum KI neue Netzwerke braucht – Wie Ethernet, Spine-Leaf und GPU-Fabrics Rechenzentren verändern

Inhalt

Kategorien: Cisco | KI | Netzwerk

Veröffentlicht: 13. Juni 2026