Siri AI vs. Microsoft 365 Copilot: Warum Apple und Microsoft KI völlig unterschiedlich denken

28. Juni 2026

Nicht jeder KI-Assistent verfolgt dasselbe Ziel

Künstliche Intelligenz entwickelt sich derzeit mit hoher Geschwindigkeit weiter. Nahezu wöchentlich stellen Technologieunternehmen neue Modelle, Funktionen oder Assistenten vor. Hinter dieser Dynamik verbirgt sich jedoch eine deutlich tiefgreifendere Entwicklung: Künstliche Intelligenz soll nicht mehr ausschließlich Fragen beantworten oder Inhalte generieren, sondern zunehmend eigenständig Aufgaben übernehmen. Aus klassischen digitalen Assistenten entstehen schrittweise handlungsfähige KI-Agenten.

Vor diesem Hintergrund richtet sich der Blick derzeit besonders auf Apple. Mit Siri AI hat das Unternehmen eine neue Generation seines Sprachassistenten vorgestellt, die deutlich stärker in das Betriebssystem integriert ist und den persönlichen Nutzungskontext berücksichtigt. Gleichzeitig verschiebt Apple die Einführung dieser Funktionen für iPhone und iPad in der Europäischen Union. Als Begründung verweist das Unternehmen auf regulatorische Anforderungen des Digital Markets Act (DMA). Die Europäische Kommission widerspricht dieser Darstellung und betont, dass der DMA Innovationen nicht verhindere, sondern faire Wettbewerbsbedingungen und Interoperabilität gewährleisten solle.

Damit entwickelt sich Siri AI weit über eine Produktneuheit hinaus zu einem Beispiel für eine grundsätzliche Frage: Wie müssen KI-Agenten aufgebaut sein, wenn sie künftig eigenständig handeln und dabei gleichzeitig Datenschutz, Sicherheit und Wettbewerb berücksichtigen sollen?

Der eigentliche Unterschied liegt in der Architektur

Auf den ersten Blick scheint der Vergleich zwischen Siri AI und Microsoft 365 Copilot naheliegend. Beide Systeme unterstützen Benutzer:innen mit Hilfe künstlicher Intelligenz, verstehen natürliche Sprache und sollen künftig immer komplexere Aufgaben übernehmen. Dennoch verfolgen Apple und Microsoft grundlegend unterschiedliche Strategien.

Apple entwickelt seinen KI-Agenten konsequent aus der Perspektive des Endgeräts. Persönliche Informationen, installierte Apps und der aktuelle Nutzungskontext bilden die Grundlage für intelligente Aktionen. Microsoft verfolgt dagegen einen anderen Ansatz. Microsoft 365 Copilot greift auf den Microsoft Graph zurück und nutzt das Wissen einer gesamten Organisation als Kontext für seine Entscheidungen. Damit stehen Dokumente, E-Mails, Kalender, Besprechungen und Beziehungen zwischen Informationen im Mittelpunkt.

Genau dieser architektonische Unterschied bildet den roten Faden dieses Beitrags. Statt die Fähigkeiten einzelner Produkte gegenüberzustellen, erläutere ich, warum sich derzeit zwei unterschiedliche Klassen von KI-Agenten entwickeln. Gleichzeitig wird deutlich, weshalb Themen wie Kontext, Interoperabilität, Datenschutz und der Digital Markets Act weit über die aktuelle Diskussion um Siri AI hinausreichen und die zukünftige Entwicklung künstlicher Intelligenz nachhaltig prägen werden.

Vom Sprachassistenten zum KI-Agenten

Als Apple im Jahr 2011 Siri auf dem iPhone einführte, begann für viele Benutzer:innen eine neue Form der Mensch-Computer-Interaktion. Erstmals ließen sich Erinnerungen anlegen, Nachrichten diktieren oder einfache Fragen allein per Sprache beantworten. In den folgenden Jahren entstanden mit Google Now, Amazon Alexa und Microsoft Cortana weitere digitale Assistenten, die ein ähnliches Ziel verfolgten: Die Bedienung digitaler Geräte sollte einfacher, natürlicher und komfortabler werden.

Trotz unterschiedlicher technischer Konzepte arbeiteten diese Systeme nach einem vergleichbaren Prinzip. Sie interpretierten einzelne Sprachbefehle, führten klar definierte Aktionen aus und lieferten Antworten auf konkrete Fragen. Ihr Wissen basierte überwiegend auf fest implementierten Funktionen oder der Anbindung an Onlinedienste. Eigenständige Entscheidungen trafen sie dagegen nicht. Der Mensch formulierte den Auftrag, der Assistent setzte ihn möglichst zuverlässig um.

Diese erste Generation digitaler Assistenten war ein wichtiger Meilenstein. Gleichzeitig wurde im praktischen Einsatz schnell deutlich, dass ihre Fähigkeiten durch den fehlenden Kontext begrenzt blieben. Die Systeme verstanden einzelne Befehle, konnten jedoch kaum Zusammenhänge zwischen verschiedenen Informationen herstellen oder komplexere Aufgaben eigenständig planen.

Große Sprachmodelle verändern die Rolle künstlicher Intelligenz

Mit dem Aufkommen großer Sprachmodelle begann eine neue Entwicklungsstufe künstlicher Intelligenz. Systeme wie ChatGPT zeigten erstmals einer breiten Öffentlichkeit, dass KI natürliche Sprache nicht nur erkennen, sondern auch interpretieren, strukturieren und in nahezu beliebiger Form erzeugen kann. Dadurch veränderte sich die Erwartungshaltung vieler Benutzer:innen grundlegend.

Dennoch handelt es sich bei einem klassischen Chatbot zunächst um ein reaktives System. Er verarbeitet eine Eingabe und erzeugt daraus eine Antwort. Zwar kann diese Antwort umfangreich, kreativ oder fachlich fundiert sein, doch das eigentliche Handeln verbleibt beim Menschen. Soll beispielsweise ein Termin vereinbart, eine Datei abgelegt oder ein Geschäftsprozess angestoßen werden, sind dafür zusätzliche Schritte außerhalb des Chatfensters erforderlich.

Große Sprachmodelle bilden somit eine entscheidende technologische Grundlage moderner KI-Systeme. Sie allein machen aus einem Chatbot jedoch noch keinen KI-Agenten.

Was einen KI-Agenten von einem Chatbot unterscheidet

Ein KI-Agent erweitert die Fähigkeiten eines Sprachmodells um mehrere entscheidende Komponenten. Neben dem eigentlichen Modell verfügt er über Zugriff auf Werkzeuge, kennt seinen jeweiligen Kontext und kann mehrere Handlungsschritte miteinander verknüpfen. Dadurch entwickelt sich künstliche Intelligenz vom reinen Gesprächspartner zu einem System, das innerhalb definierter Grenzen eigenständig Aufgaben ausführen kann.

Der Unterschied lässt sich an einem einfachen Beispiel verdeutlichen. Ein Chatbot beantwortet die Frage: „Welche Termine habe ich morgen?“ Ein KI-Agent kann darüber hinaus den Kalender auswerten, relevante E-Mails durchsuchen, benötigte Unterlagen zusammenstellen und daraus automatisch eine Besprechungsvorbereitung erstellen. Das Sprachmodell liefert dabei nicht nur eine Antwort, sondern koordiniert mehrere aufeinanderfolgende Aktionen.

Moderne KI-Agenten zeichnen sich insbesondere durch vier Eigenschaften aus:

Kontextverständnis: Sie berücksichtigen Informationen aus ihrer Umgebung, beispielsweise persönliche Daten oder Unternehmenswissen.
Planungsfähigkeit: Sie zerlegen komplexe Aufgaben in mehrere logisch aufeinanderfolgende Schritte.
Werkzeugnutzung: Sie greifen auf Anwendungen, Programmierschnittstellen oder andere Systeme zu, um Aktionen auszuführen.
Handlungsfähigkeit: Sie können Ergebnisse nicht nur erzeugen, sondern definierte Prozesse selbstständig anstoßen.

Genau diese Eigenschaften unterscheiden heutige KI-Agenten grundlegend von klassischen Sprachassistenten und Chatbots. Gleichzeitig bilden sie die Voraussetzung für die unterschiedlichen Strategien, die Apple und Microsoft mit Siri AI beziehungsweise Microsoft 365 Copilot verfolgen. Beide Systeme basieren auf leistungsfähigen Sprachmodellen – ihre eigentliche Stärke entsteht jedoch erst durch den Kontext, den sie verstehen und für ihre Entscheidungen nutzen.

Exkurs: Alexa, Cortana, Siri & Co. – Vom Aufstieg und zur Bedeutung der Sprachassistenz

Die Idee sprachgesteuerter Computer ist älter als Siri

Sprachassistenten wirken heute selbstverständlich. Tatsächlich reichen ihre technischen Wurzeln jedoch deutlich weiter zurück als die Einführung von Siri im Jahr 2011. Bereits in den 1990er-Jahren kamen erste kommerzielle Systeme zur automatischen Spracherkennung auf den Markt. Besonders bekannt wurde Dragon NaturallySpeaking, das gesprochene Sprache in geschriebenen Text umwandeln konnte und vor allem im medizinischen, juristischen und administrativen Umfeld eingesetzt wurde. Auch Navigationssysteme oder frühe Freisprecheinrichtungen ermöglichten bereits einfache Sprachbefehle wie das Wählen von Kontakten oder das Starten einer Zielführung.

Diese Systeme arbeiteten überwiegend regelbasiert. Sie erkannten definierte Wörter oder Befehle, verfügten jedoch weder über ein Sprachverständnis noch über die Fähigkeit, Inhalte zu interpretieren oder Zusammenhänge herzustellen. Dennoch legten sie den Grundstein für eine Entwicklung, die das Verhältnis zwischen Mensch und Computer nachhaltig verändern sollte: Sprache wurde zunehmend zu einer eigenständigen Form der Benutzerinteraktion.

Die frühen 2010er-Jahre: Sprachassistenten werden zum Massenmarkt

Mit der Vorstellung von Siri im Jahr 2011 begann eine neue Phase der Sprachassistenz. Erstmals war ein digitaler Assistent fester Bestandteil eines Smartphones und für Millionen Benutzer:innen unmittelbar verfügbar. Wenige Jahre später folgten Google Now (2012), Amazon Alexa (2013) oder Microsoft Cortana (2014). Parallel etablierten sich mit intelligenten Lautsprechern und weiteren Schnittstellen völlig neue Gerätekategorien, die Sprache zur zentralen Bedienoberfläche machten.

In dieser Zeit entstand eine regelrechte Aufbruchsstimmung. Viele Analysten gingen davon aus, dass Sprache langfristig Tastatur und Touchscreen als wichtigste Form der Interaktion ablösen könnte. Hersteller investierten Milliardenbeträge in Spracherkennung, Mikrofontechnik und Cloud-Infrastrukturen. Gleichzeitig entwickelte sich der Markt für Smart-Home-Geräte, in dem Sprachassistenten als zentrale Steuerungsinstanz fungierten.

Für viele Benutzer:innen wurde es selbstverständlich, Musik per Sprache zu starten, Timer zu setzen, Wetterinformationen abzurufen oder Smart-Home-Komponenten zu steuern. Sprachassistenz entwickelte sich damit erstmals zu einer alltagstauglichen Technologie und schuf eine breite gesellschaftliche Akzeptanz für den Dialog mit künstlicher Intelligenz.

Zwischen Erfolg und Ernüchterung

Trotz ihres großen Erfolgs erreichten klassische Sprachassistenten nie ganz das Potenzial, das viele Analysten ihnen zu Beginn der 2010er-Jahre zuschrieben. Zwar verstanden sie einzelne Sprachbefehle zunehmend zuverlässiger, komplexere Zusammenhänge blieben ihnen jedoch weitgehend verschlossen. Bereits leicht abgewandelte Formulierungen führten häufig zu Missverständnissen. Auch mehrstufige Aufgaben oder kontextabhängige Entscheidungen ließen sich nur eingeschränkt abbilden.

Dennoch sollte ihr Einfluss nicht unterschätzt werden. Die eigentliche Innovation bestand zunächst nicht in ihrer Intelligenz, sondern in einer völlig neuen Form der Interaktion. Über Jahrzehnte mussten Menschen lernen, sich an Computer anzupassen: Befehle wurden über Tastaturen, Menüs oder grafische Benutzeroberflächen eingegeben. Mit Siri, Alexa oder Cortana kehrte sich dieses Prinzip erstmals im Massenmarkt um. Computer begannen, natürliche Sprache zu verstehen und wurden dadurch vom abstrakten technischen Gerät zu einem Kommunikationspartner. Millionen Benutzer:innen gewöhnten sich daran, Fragen zu stellen, Anweisungen zu formulieren oder mit einem digitalen Assistenten zu sprechen – ein Verhalten, das wenige Jahre zuvor noch ungewohnt oder sogar befremdlich wirkte.

Die Grenzen dieser Systeme lagen deshalb weniger in der Qualität der Spracherkennung als vielmehr in ihrer zugrunde liegenden Architektur. Sprachassistenten arbeiteten überwiegend befehlsorientiert. Sie reagierten auf einzelne Eingaben, verfügten jedoch kaum über ein dauerhaftes Verständnis von Kontext, Beziehungen oder Absichten. Jeder Sprachbefehl wurde weitgehend isoliert verarbeitet.

Rückblickend waren Siri, Alexa und Cortana daher weit mehr als nur technische Produkte. Sie schufen die gesellschaftliche Akzeptanz für sprachbasierte Mensch-Computer-Interaktion und bereiteten den Weg für die heutige Generation von KI-Systemen. Erst weil Millionen Menschen gelernt hatten, selbstverständlich mit Computern zu sprechen, konnte sich die Idee eines intelligenten KI-Agenten überhaupt etablieren. Die eigentliche Revolution bestand somit weniger in der Sprache selbst als in der veränderten Beziehung zwischen Mensch und Maschine.

Der Weg zum KI-Agenten

Die aktuelle Generation von KI-Agenten knüpft an diese Entwicklung an, verfolgt jedoch einen grundlegend anderen Ansatz. Im Mittelpunkt steht nicht mehr die möglichst präzise Erkennung eines einzelnen Sprachbefehls, sondern das Verständnis des gesamten Handlungskontexts. Moderne KI-Systeme kombinieren leistungsfähige Sprachmodelle mit Kontextwissen, Werkzeugen und Planungsmechanismen. Dadurch entstehen Systeme, die nicht nur Antworten formulieren, sondern innerhalb definierter Grenzen eigenständig Aufgaben übernehmen können.

Dieser Wandel ist keine einzelne Produktentscheidung, sondern eine Entwicklung, die sich derzeit über die gesamte Branche beobachten lässt. Klassische Sprachassistenten haben ihre technologische Grenze weitgehend erreicht. Benutzer:innen erwarten heute nicht mehr lediglich Antworten auf Fragen oder das Ausführen einzelner Befehle. Sie erwarten Systeme, die Zusammenhänge verstehen, Informationen verknüpfen und vollständige Aufgaben übernehmen können. Reine Sprachassistenz reicht dafür nicht mehr aus.

Die Konsequenz zeigt sich bei nahezu allen großen Technologieunternehmen. Apple entwickelt Siri konsequent zu Siri AI weiter und ergänzt den Sprachassistenten um persönliches Kontextverständnis und agentische Fähigkeiten. Amazon verfolgt mit der neuen Alexa+ eine vergleichbare Richtung und erweitert den bisherigen Sprachassistenten um generative KI und eigenständige Aufgabenbearbeitung. Google ersetzt den klassischen Google Assistant schrittweise durch Gemini, das als intelligenter KI-Assistent deutlich stärker auf Kontext und multimodale Fähigkeiten ausgelegt ist. Microsoft ging sogar noch einen Schritt weiter: Cortana wurde eingestellt und durch Microsoft Copilot ersetzt – einen KI-Agenten, der nicht mehr primär Spracheingaben verarbeitet, sondern Unternehmenswissen analysiert und Arbeitsprozesse unterstützt.

Der Übergang von der Sprachassistenz zum KI-Agenten markiert damit keinen evolutionären Schritt innerhalb derselben Technologie, sondern einen grundlegenden Architekturwechsel. Die Branche entwickelt sich von Systemen, die auf einzelne Befehle reagieren, hin zu Agenten, die Kontext verstehen, Entscheidungen vorbereiten und innerhalb definierter Grenzen eigenständig handeln können.

Genau dieser Architekturwechsel bildet die Grundlage für die unterschiedlichen Strategien, die Apple mit Siri AI und Microsoft mit Microsoft 365 Copilot heute verfolgen. Beide Systeme gehören zur gleichen Generation intelligenter KI-Agenten – unterscheiden sich jedoch grundlegend in der Frage, aus welchem Kontext sie ihre Intelligenz beziehen. Dieser Unterschied steht im Mittelpunkt der folgenden Kapitel.

Kontext wird zur wichtigsten Ressource moderner KI

Große Sprachmodelle (Large Language Models, LLMs) bilden die technologische Grundlage nahezu aller modernen KI-Systeme. Sie können Texte analysieren, Inhalte zusammenfassen, Programmcodes erzeugen oder komplexe Fragestellungen verständlich erklären. Diese Fähigkeiten entstehen durch das Erkennen statistischer Muster in enormen Datenmengen und führen häufig zu dem Eindruck, ein Sprachmodell verfüge über umfassendes Wissen.

Tatsächlich besitzen große Sprachmodelle jedoch kein dauerhaftes Verständnis ihrer Umgebung. Sie kennen weder die aktuelle Situation von Benutzer:innen noch den Inhalt eines Kalenders, eines Unternehmensnetzwerks oder einer Projektdokumentation – sofern ihnen diese Informationen nicht gezielt bereitgestellt werden. Ein Sprachmodell beantwortet deshalb zunächst ausschließlich die Frage, die ihm gestellt wird. Es verfügt jedoch nicht automatisch über den Kontext, der für fundierte Entscheidungen oder eigenständige Handlungen erforderlich ist.

Der Begriff Kontext beschreibt dabei sämtliche Informationen, die über die eigentliche Benutzereingabe hinausgehen und einer KI helfen, eine Situation richtig einzuordnen. Dazu gehören beispielsweise persönliche Präferenzen, Termine, Dokumente, Berechtigungen, Beziehungen zwischen Informationen oder organisatorische Abläufe. Welche zentrale Rolle dieser Kontext insbesondere im Unternehmensumfeld spielt und wie Microsoft 365 Copilot ihn über den Microsoft Graph nutzt, habe ich bereits ausführlich im Beitrag Microsoft 365 Copilot administrieren: Daten, Governance, Agents und Sicherheit im Enterprise-Kontext erläutert.

Genau an dieser Stelle beginnt die nächste Entwicklungsstufe künstlicher Intelligenz. Nicht das Sprachmodell selbst verändert sich grundlegend, sondern die Art und Weise, wie es mit zusätzlichem Kontext, externem Wissen und geeigneten Werkzeugen verbunden wird. Erst diese Kombination ermöglicht es einem KI-System, Aufgaben nicht nur zu verstehen, sondern auch situationsgerecht zu planen und innerhalb definierter Grenzen eigenständig auszuführen.

Kontext macht aus Wissen handlungsfähige Intelligenz

Menschen treffen Entscheidungen selten auf Basis isolierter Informationen. Sie berücksichtigen Erfahrungen, Beziehungen, Ziele und die jeweilige Situation. Moderne KI-Agenten folgen einem ähnlichen Prinzip. Bevor sie handeln, beziehen sie möglichst viele relevante Informationen aus ihrer Umgebung ein. Erst dadurch entsteht ein belastbarer Kontext.

Dieser Kontext kann sehr unterschiedlich aussehen. Im privaten Umfeld gehören beispielsweise Termine, Kontakte, Nachrichten oder der aktuelle Standort dazu. In Unternehmen bilden dagegen Dokumente, E-Mails, Besprechungen, Richtlinien oder Projektinformationen den entscheidenden Wissenshintergrund. Ohne diese zusätzlichen Informationen bleibt selbst das leistungsfähigste Sprachmodell auf allgemeines Wissen beschränkt.

Kontext entwickelt sich damit zur wichtigsten Ressource moderner KI. Er entscheidet darüber, ob ein System lediglich allgemeine Antworten formuliert oder individuelle, situationsbezogene Entscheidungen unterstützen kann.

Von der Antwort zur eigenständigen Handlung

Mit wachsendem Kontext verändert sich auch die Rolle künstlicher Intelligenz. Während klassische Chatbots vor allem Informationen bereitstellen, können moderne KI-Agenten daraus konkrete Handlungen ableiten. Sie analysieren eine Aufgabe, planen die erforderlichen Zwischenschritte und greifen anschließend auf geeignete Werkzeuge oder Anwendungen zu.

Ein praktisches Beispiel verdeutlicht diesen Unterschied: Ein Sprachmodell kann erklären, wie sich eine Besprechung vorbereiten lässt. Ein KI-Agent kann dagegen den Kalender prüfen, relevante Dokumente zusammenstellen, offene Aufgaben identifizieren und daraus automatisch eine strukturierte Besprechungsunterlage erstellen. Die eigentliche Stärke liegt dabei nicht im Formulieren eines Textes, sondern im Zusammenspiel mehrerer aufeinander abgestimmter Aktionen.

Damit verschiebt sich der Schwerpunkt künstlicher Intelligenz von der Informationsverarbeitung hin zur Unterstützung kompletter und komplexer Arbeitsabläufe. Aus einem dialogorientierten System entsteht schrittweise ein digitaler Assistent, der innerhalb definierter Grenzen eigenständig handeln kann.

Agentic AI: Mehr als nur ein intelligenter Chatbot

Für diese neue Generation intelligenter Systeme hat sich der Begriff Agentic AI etabliert. Gemeint sind KI-Agenten, die große Sprachmodelle mit Kontextwissen, Werkzeugen und Planungsmechanismen kombinieren. Sie reagieren nicht mehr ausschließlich auf einzelne Eingaben, sondern verfolgen ein definiertes Ziel und entscheiden selbst, welche Schritte dafür erforderlich sind.

Vier Eigenschaften kennzeichnen einen modernen KI-Agenten:

Handlungsfähigkeit: Der Agent kann definierte Aktionen selbstständig ausführen oder koordinieren
Kontextverständnis: Der Agent bezieht Informationen aus seiner jeweiligen Umgebung ein
Planungsfähigkeit: Komplexe Aufgaben werden in mehrere logisch aufeinanderfolgende Schritte zerlegt
Werkzeugnutzung: Anwendungen, Programmierschnittstellen oder externe Systeme werden gezielt eingebunden

Diese Eigenschaften markieren den eigentlichen Unterschied zwischen klassischen Chatbots und modernen KI-Agenten. Sie bilden zugleich die Grundlage für die unterschiedlichen Strategien der großen Technologieunternehmen. Denn obwohl Apple und Microsoft beide auf leistungsfähige Sprachmodelle setzen, beantworten sie die entscheidende Frage unterschiedlich: Welchen Kontext benötigt ein KI-Agent, um intelligent handeln zu können?

Infografik zum Vergleich von Siri AI und Microsoft 365 Copilot als Kontextplattformen für KI-Agenten mit Personal Context, Organizational Context und Multi-Agent-Systemen.

Apple denkt KI vom Gerät aus

Apple Intelligence sollte nicht nur als Sammlung neuer KI-Funktionen verstanden werden. Hinter Apple Intelligence steht vielmehr eine grundlegende Architekturentscheidung. Während viele Anbieter künstliche Intelligenz zunächst als cloudbasierten Dienst entwickeln und anschließend in bestehende Produkte integrieren, verfolgt Apple den umgekehrten Ansatz: KI wird zu einem integralen Bestandteil der eigenen Plattform. iPhone, iPad, Mac, Betriebssystem, Apps und Entwicklerframeworks bilden dabei eine eng verzahnte Architektur, in der künstliche Intelligenz von Anfang an mitgedacht wird.

Im Mittelpunkt steht dabei nicht das Sprachmodell selbst, sondern der persönliche Nutzungskontext. Apple möchte KI dort verankern, wo digitale Interaktionen tatsächlich entstehen – in Nachrichten, Fotos, Kalendern, Dateien, Apps, Benachrichtigungen und persönlichen Kommunikationsverläufen. Das Betriebssystem entwickelt sich dadurch von einer reinen Verwaltungsoberfläche zu einer intelligenten Integrationsschicht, die Informationen, Anwendungen und Benutzerkontext miteinander verbindet.

Diese Architektur bildet die Grundlage für Siri AI. Der Sprachassistent entwickelt sich von einem klassischen Eingabesystem zu einer zentralen KI-Komponente der Plattform. Seine eigentliche Stärke liegt künftig nicht mehr allein darin, Sprache zu verstehen, sondern den persönlichen Kontext eines Geräts mit den verfügbaren Anwendungen und Systemfunktionen zu verknüpfen. Wie Apple diesen Ansatz technisch umsetzt, zeigen die folgenden Architekturbausteine.

Foundation Models als technisches Fundament

Die Grundlage von Apple Intelligence bilden eigene Foundation Models. Dabei handelt es sich um generative KI-Modelle, die unterschiedliche Aufgaben übernehmen – von der Textverarbeitung über Zusammenfassungen bis hin zu Bildfunktionen und natürlicher Sprachverarbeitung. Entscheidend ist jedoch weniger ihre reine Leistungsfähigkeit als ihre enge Verzahnung mit Hard- und Software. Apple entwickelt diese Modelle gezielt für die eigene Plattform und optimiert sie für den Einsatz auf iPhone, iPad und Mac.

Im Gegensatz zu vielen cloudzentrierten KI-Angeboten steht dabei nicht die größtmögliche Modellgröße im Mittelpunkt. Viel wichtiger ist die Frage, welche Aufgaben sich direkt auf dem Endgerät effizient ausführen lassen. Die Modelle müssen deshalb nicht nur leistungsfähig, sondern auch ressourcenschonend sein und sich nahtlos in Betriebssystem, Apps und den persönlichen Nutzungskontext integrieren.

Der Trend geht zu spezialisierten Modellfamilien

Interessanterweise folgt Apple damit einer Entwicklung, die sich inzwischen bei nahezu allen großen KI-Anbietern beobachten lässt. An die Stelle eines einzelnen universellen Sprachmodells treten zunehmend spezialisierte Modellfamilien, die jeweils für bestimmte Aufgaben optimiert sind. Moderne KI-Plattformen entwickeln sich damit zu einem Ökosystem unterschiedlicher Modelle, aus dem je nach Anwendungsfall das am besten geeignete ausgewählt wird.

Auch Microsoft verfolgt diesen Ansatz. Unter Microsoft AI Models stellt das Unternehmen eine wachsende Modelllandschaft bereit, die unter anderem für Sprachverarbeitung, multimodale Anwendungen, Softwareentwicklung oder wissenschaftliche Analysen optimiert ist. Die eigentliche Innovation liegt dabei nicht in einem einzelnen besonders großen Modell, sondern in der intelligenten Orchestrierung spezialisierter Modelle für unterschiedliche Aufgaben.

Diese Entwicklung habe ich bereits im Beitrag Microsoft Copilot wird Multi-Modell: Warum Claude die KI-Architektur neu definiert ausführlich betrachtet. Dort wird deutlich, dass die Zukunft leistungsfähiger KI-Systeme nicht zwangsläufig in immer größeren Einzelmodellen liegt, sondern vielmehr in der intelligenten Kombination spezialisierter Modelle.

Effizienz schafft Plattformintegration

Apple nutzt diese Entwicklung jedoch mit einer anderen Zielsetzung als viele Wettbewerber. Während spezialisierte Modelle bei Microsoft vor allem dazu beitragen, unterschiedliche Unternehmens- und Cloud-Szenarien optimal zu unterstützen, verfolgt Apple das Ziel, möglichst viele KI-Funktionen direkt in die eigene Plattform zu integrieren.

Je näher ein Foundation Model am Endgerät arbeitet, desto schneller kann es auf persönliche Informationen reagieren und desto seltener müssen Daten an externe Systeme übertragen werden. Effizienz wird dadurch selbst zu einem Architekturprinzip. Die Foundation Models bilden nicht nur das technische Fundament von Apple Intelligence, sondern schaffen zugleich die Voraussetzung dafür, dass KI zu einem selbstverständlichen Bestandteil des Betriebssystems wird – und nicht als separater Cloud-Dienst wahrgenommen wird.

On-Device Intelligence als Kern des Apple-Ansatzes

Ein zentrales Prinzip von Apple Intelligence ist On-Device Intelligence. Viele KI-Aufgaben sollen direkt auf dem Gerät verarbeitet werden – insbesondere dann, wenn persönliche Informationen betroffen sind oder schnelle, kontextbezogene Reaktionen erforderlich werden. Damit verlagert Apple einen Teil der KI-Verarbeitung bewusst vom Rechenzentrum zurück auf iPhone, iPad und Mac.

Dieser Ansatz bietet mehrere Vorteile. Zum einen können KI-Funktionen schneller reagieren, weil keine permanente Kommunikation mit einer Cloud erforderlich ist. Zum anderen erhält das System unmittelbaren Zugriff auf lokale Informationen wie Apps, Dateien, Fotos oder Benachrichtigungen. Gleichzeitig unterstützt die lokale Verarbeitung Apples Datenschutzstrategie, da sensible Informationen das Gerät möglichst nicht verlassen.

On-Device AI ist ein branchenweiter Trend

Die Idee, künstliche Intelligenz möglichst nah am Endgerät auszuführen, beschränkt sich längst nicht mehr auf Apple. Auch Microsoft verfolgt mit den Copilot+ PCs einen vergleichbaren Architekturansatz. Leistungsfähige Neural Processing Units (NPUs) übernehmen dort einen Teil der KI-Verarbeitung direkt auf dem Gerät. Funktionen wie Recall, Click to Do oder lokale Bild- und Textverarbeitung profitieren von dieser zusätzlichen Rechenleistung. Wie sich diese neue Geräteklasse entwickelt und welche Rolle sie künftig für den professionellen KI-Einsatz spielen könnte, habe ich bereits im Beitrag Wir bauen einen eigenen Copilot+ PC: Mein Weg zum KI-Arbeitsrechner für 2026 und darüber hinaus detailliert beschrieben.

Diese Entwicklung zeigt einen grundlegenden Wandel der KI-Architektur. Nachdem künstliche Intelligenz zunächst nahezu ausschließlich in der Cloud stattfand, kehrt ein Teil der Verarbeitung wieder auf das Endgerät zurück. Moderne Hardware wird damit zunehmend selbst zu einer KI-Plattform.

Unterschiedliche Strategien trotz gleicher Technologie

Trotz dieser technischen Gemeinsamkeit verfolgen Apple und Microsoft unterschiedliche Ziele. Microsoft betrachtet die lokale KI-Beschleunigung als Bestandteil einer hybriden Copilot-Architektur. Je nach Aufgabenstellung arbeiten lokale Modelle auf dem Endgerät und leistungsfähigere Cloud-Modelle eng zusammen.

Apple gewichtet diese Architektur anders. Hier bildet das Gerät den Ausgangspunkt nahezu aller KI-Interaktionen. Die Foundation Models, der persönliche Nutzungskontext und die enge Integration in das Betriebssystem sorgen dafür, dass möglichst viele Aufgaben lokal verarbeitet werden können. Cloud-Ressourcen werden erst dann hinzugezogen, wenn die verfügbare Rechenleistung auf dem Gerät nicht ausreicht.

Lokale KI hat physikalische Grenzen

So leistungsfähig moderne Smartphones und Notebooks inzwischen auch sind, ihre Ressourcen bleiben begrenzt. Große Sprachmodelle benötigen erhebliche Rechenleistung, Arbeitsspeicher und Energie. Gerade der Energiebedarf entwickelt sich zunehmend zu einer der größten technischen Herausforderungen moderner KI-Systeme. Während Rechenzentren ihre Infrastruktur kontinuierlich ausbauen können, müssen mobile Endgeräte mit begrenzter Akkukapazität, thermischen Grenzen und kompakten Kühlsystemen auskommen. Deshalb lassen sich nicht alle KI-Aufgaben sinnvoll lokal ausführen.

Welche Auswirkungen der steigende Energiebedarf künstlicher Intelligenz inzwischen auf Rechenzentren, Hardwarehersteller und die gesamte IT-Infrastruktur hat, habe ich bereits im Beitrag KI im Gigawatt-Zeitalter – Wie OpenAI, AMD, NVIDIA und Broadcom die Energiefrage neu schreiben umfassend ausgearbeitet. Die dort beschriebenen Zusammenhänge gelten im kleineren Maßstab ebenso für mobile Geräte: Jede lokal ausgeführte KI-Funktion muss nicht nur leistungsfähig, sondern auch energieeffizient sein.

Apple begegnet dieser Herausforderung mit einer hybriden Architektur. On-Device Intelligence übernimmt die Verarbeitung überall dort, wo Geschwindigkeit, Datenschutz und persönlicher Kontext im Vordergrund stehen. Für besonders rechenintensive Aufgaben wird die lokale KI gezielt durch Cloud-Ressourcen ergänzt. Dadurch entsteht ein ausgewogenes Verhältnis zwischen lokaler Effizienz und nahezu unbegrenzter Rechenleistung im Rechenzentrum. Genau dieser Übergang führt zum nächsten Architekturbaustein von Apple Intelligence: Private Cloud Compute.

Private Cloud Compute erweitert das Gerät

Nicht jede KI-Aufgabe lässt sich effizient auf einem Smartphone oder Notebook ausführen. Besonders große Sprachmodelle benötigen erhebliche Rechenleistung, Arbeitsspeicher und Energie. Deshalb ergänzt Apple die lokale Verarbeitung durch Private Cloud Compute – eine speziell abgesicherte Cloud-Infrastruktur, die als kontrollierte Erweiterung des Endgeräts fungiert.

Der Grundgedanke ist dabei einfach: Aufgaben, die lokal effizient verarbeitet werden können, verbleiben auf dem Gerät. Erst wenn zusätzliche Rechenleistung erforderlich ist, wird die Anfrage an Private Cloud Compute übergeben. Aus Sicht der Benutzer:innen bleibt diese Übergabe weitgehend transparent, während Apple betont, dass nur die für die jeweilige Aufgabe erforderlichen Informationen verarbeitet und keine persönlichen Daten dauerhaft gespeichert werden.

Hybride KI wird zum neuen Standard

Die Kombination aus lokaler und cloudbasierter KI ist längst kein Alleinstellungsmerkmal von Apple. Sie entwickelt sich vielmehr zum allgemeinen Architekturprinzip moderner KI-Plattformen. Sowohl Apple als auch Microsoft verbinden lokale KI-Funktionen mit leistungsfähigen Cloud-Diensten und entscheiden abhängig von der jeweiligen Aufgabe, wo eine Verarbeitung am sinnvollsten erfolgt.

Auch auf Copilot+ PCs arbeiten lokale Modelle und Neural Processing Units (NPUs) eng mit Cloud-Diensten von Microsoft AI zusammen. Dadurch entstehen hybride Architekturen, die schnelle lokale Verarbeitung mit nahezu unbegrenzter Rechenleistung im Rechenzentrum kombinieren.

Unterschiedliche Gewichtung der Cloud

Trotz dieser technischen Gemeinsamkeit unterscheiden sich beide Unternehmen in ihrer strategischen Ausrichtung. Microsoft versteht die Cloud als zentralen Bestandteil seiner KI-Plattform. Lokale Modelle ergänzen diese Architektur dort, wo geringe Latenzen, Offline-Fähigkeit oder ein unmittelbarer Gerätebezug erforderlich sind.

Apple verfolgt den umgekehrten Weg. Hier bildet das Endgerät den Ausgangspunkt nahezu aller KI-Interaktionen. Private Cloud Compute erweitert diese Plattform nur dann, wenn die verfügbaren Ressourcen auf dem Gerät nicht ausreichen. Die Cloud wird somit nicht zum primären Ausführungsort der KI, sondern zu einer kontrollierten Erweiterung des persönlichen Geräts.

Architektur statt Infrastruktur

Gerade dieser Unterschied verdeutlicht die unterschiedlichen Philosophien beider Unternehmen. Beide kombinieren lokale und cloudbasierte KI, beide nutzen spezialisierte Modelle und beide verfolgen hybride Architekturen. Der eigentliche Unterschied liegt jedoch nicht in der verwendeten Technologie, sondern in ihrer Einbettung.

Microsoft denkt KI von der Cloud und dem Unternehmenswissen aus. Apple denkt KI vom Gerät und dem persönlichen Nutzungskontext aus. Private Cloud Compute bildet deshalb keine eigenständige KI-Plattform, sondern erweitert konsequent den bereits auf dem Endgerät vorhandenen Kontext. Erst dieses Zusammenspiel aus Foundation Models, On-Device Intelligence und Private Cloud Compute schafft die Grundlage für die nächsten Architekturbausteine von Apple Intelligence: App Intents und Personal Context.

App Intents verbinden KI mit konkreten Aktionen

Leistungsfähige Sprachmodelle, lokale KI-Verarbeitung und eine hybride Cloud-Architektur bilden zwar das technische Fundament von Apple Intelligence. Ein KI-Agent benötigt jedoch noch eine weitere Fähigkeit: Er muss nicht nur Informationen verstehen, sondern auch konkrete Aktionen ausführen können. Genau an dieser Stelle kommen die App Intents ins Spiel.

Während Foundation Models Sprache interpretieren und On-Device Intelligence den persönlichen Nutzungskontext bereitstellt, schaffen App Intents die Verbindung zwischen künstlicher Intelligenz und den Funktionen einzelner Anwendungen. Erst dadurch wird aus einem sprachverarbeitenden System ein handlungsfähiger Agent.

App Intents beschreiben, was Apps tun können

App Intents ermöglichen es Entwickler:innen, ausgewählte Funktionen ihrer Anwendungen für das Betriebssystem und damit auch für Siri AI bereitzustellen. Vereinfacht gesagt beschreiben sie, welche Aktionen eine App ausführen kann und wie diese von einem KI-Agenten genutzt werden dürfen.

Eine Notiz-App kann beispielsweise das Erstellen, Suchen oder Bearbeiten von Notizen anbieten. Eine Reise-App kann Buchungen, Check-ins oder Statusinformationen bereitstellen. Sind diese Funktionen entsprechend beschrieben, kann Siri AI sie gezielt ansprechen und in komplexere Arbeitsabläufe integrieren.

Der entscheidende Unterschied zu klassischen Sprachassistenten besteht darin, dass Siri AI nicht mehr nur einzelne Befehle an Apps weiterleitet. Stattdessen versteht das System, welche Aktionen grundsätzlich verfügbar sind, und kann sie situationsabhängig miteinander kombinieren.

Mehr als klassische Programmierschnittstellen

App Intents bilden eine standardisierte Aktionsschnittstelle zwischen KI-Agent, Betriebssystem und Drittanbieter-Apps. Sie übernehmen innerhalb der Apple-Plattform eine ähnliche Rolle wie klassische Programmierschnittstellen (APIs), gehen jedoch einen entscheidenden Schritt weiter.

Traditionelle APIs beschreiben in erster Linie technische Funktionen. App Intents beschreiben dagegen Absichten und Aktionen in einer Form, die sich unmittelbar mit natürlicher Sprache, Benutzerkontext und agentischen Arbeitsabläufen verbinden lässt. Dadurch entsteht eine gemeinsame Sprache zwischen Anwendungen und dem KI-Agenten.

Vom Chatbot zum Plattform-Agenten

Gerade dieser Mechanismus markiert den entscheidenden Unterschied zwischen einem klassischen Chatbot und einem modernen KI-Agenten. Ohne standardisierte Aktionsschnittstellen könnte Siri AI Fragen beantworten, Inhalte zusammenfassen oder Empfehlungen geben. Die eigentliche Ausführung einer Aufgabe müsste jedoch weiterhin durch den Menschen erfolgen.

Erst durch App Intents kann Siri AI App-übergreifende Prozesse koordinieren und innerhalb definierter Grenzen eigenständig ausführen. Zusammen mit Foundation Models, On-Device Intelligence und Private Cloud Compute entsteht damit eine Architektur, in der künstliche Intelligenz nicht nur Informationen verarbeitet, sondern aktiv mit der gesamten Plattform interagiert. Genau dieser Schritt bereitet den letzten und wichtigsten Baustein von Apple Intelligence vor: den Personal Context.

Personal Context macht Siri AI zum Plattform-Agenten

Leistungsfähige Foundation Models, intelligente Aktionsschnittstellen und eine hybride KI-Architektur bilden zwar das technische Fundament von Apple Intelligence. Wirklich handlungsfähig wird Siri AI jedoch erst durch den Personal Context. Er liefert genau den situativen Zusammenhang, den ein KI-Agent benötigt, um Anfragen eindeutig zu verstehen und daraus sinnvolle Aktionen abzuleiten.

Apple Intelligence kann – selbstverständlich unter Berücksichtigung der jeweiligen Berechtigungen – auf persönliche Informationen wie Kontakte, Kalender, Nachrichten, E-Mails, Dateien, Fotos oder aktuell geöffnete Inhalte zugreifen. Dadurch verarbeitet das System nicht mehr ausschließlich eine einzelne Benutzereingabe, sondern berücksichtigt deren Zusammenhang mit dem persönlichen digitalen Alltag. Genau dieser zusätzliche Kontext macht aus einer allgemeinen Anfrage eine konkrete Handlung.

Ein Beispiel aus dem Alltag

Der Unterschied lässt sich an einem einfachen Beispiel verdeutlichen. Die Anweisung „Schicke die Präsentation von gestern an Anna.“ ist für ein allgemeines Sprachmodell zunächst mehrdeutig:

Welche Präsentation ist gemeint?
Welche Person mit dem Namen Anna?
Soll die Datei per E-Mail, über eine Messenger-App oder auf einem anderen Weg versendet werden?

Erst durch den Zugriff auf Kalender, Kontakte, Dokumente und den bisherigen Kommunikationsverlauf lassen sich diese Fragen zuverlässig beantworten. Die eigentliche Intelligenz entsteht deshalb nicht allein durch das Sprachmodell, sondern durch den zusätzlichen Kontext, der Informationen miteinander verknüpft und ihre Bedeutung verständlich macht. Genau hier zeigt sich erneut die zentrale These dieses Beitrags: Nicht das Sprachmodell macht einen KI-Agenten intelligent – sondern der Kontext, in dem er arbeitet.

Vom Sprachassistenten zum Plattform-Agenten

Mit Personal Context verändert sich die Rolle von Siri grundlegend. Der Assistent entwickelt sich von einer sprachgesteuerten Benutzeroberfläche zu einem Plattform-Agenten, der den persönlichen Nutzungskontext des Geräts versteht und daraus eigenständig Handlungen ableiten kann. Seine Fähigkeiten entstehen nicht durch einen einzelnen Architekturbaustein, sondern durch das Zusammenspiel von Foundation Models, On-Device Intelligence, Private Cloud Compute, App Intents und Personal Context.

Apple verfolgt damit konsequent das Ziel, künstliche Intelligenz tief in die eigene Plattform zu integrieren. Das Betriebssystem wird zur zentralen Koordinationsinstanz, die Informationen, Anwendungen und persönlichen Kontext miteinander verbindet. Siri AI erhält dadurch nicht nur Zugriff auf Wissen, sondern auch auf die Fähigkeit, dieses Wissen im situativen Zusammenhang zu nutzen.

Datenschutz wird zum Architekturprinzip

Der umfassende Zugriff auf persönliche Informationen macht Apple Intelligence gleichzeitig zu einer der anspruchsvollsten KI-Architekturen im Hinblick auf Datenschutz und Sicherheit. Ein Plattform-Agent, der auf Kommunikation, Dateien, Kalender, Fotos und App-Inhalte zugreifen kann, verarbeitet zwangsläufig besonders schützenswerte Informationen.

Apple betrachtet Datenschutz deshalb nicht als nachträgliche Sicherheitsfunktion, sondern als integralen Bestandteil der Architektur. Die Kombination aus On-Device Intelligence, Private Cloud Compute und Personal Context soll sicherstellen, dass persönliche Informationen möglichst unter der Kontrolle der Benutzer:innen bleiben und nur in dem Umfang verarbeitet werden, der für die jeweilige Aufgabe erforderlich ist.

Gerade diese enge Verzahnung von Plattformintegration, persönlichem Kontext und Datenschutz erklärt zugleich, weshalb Apple die Anforderungen des Digital Markets Act kritisch bewertet. Denn je tiefer Siri AI in das Betriebssystem integriert wird, desto grundsätzlicher stellt sich die Frage, ob konkurrierende KI-Agenten einen vergleichbaren Zugriff auf diese Kontext- und Aktionsschicht erhalten müssen. Genau dieser Zielkonflikt zwischen Interoperabilität, Wettbewerb und Datenschutz bildet den Ausgangspunkt der regulatorischen Diskussion, die im weiteren Verlauf dieses Beitrags aufgegriffen wird.

Damit wird deutlich, dass Apple Intelligence nicht aus einer einzelnen KI-Komponente besteht. Foundation Models, On-Device Intelligence, Private Cloud Compute, App Intents und Personal Context bilden vielmehr eine eng verzahnte Plattformarchitektur. Erst ihr Zusammenspiel ermöglicht es Siri AI, den persönlichen Nutzungskontext zu verstehen, geeignete Anwendungen einzubeziehen und innerhalb definierter Grenzen eigenständig Aktionen auszuführen.

Die folgende Abbildung fasst diesen Architekturansatz zusammen und zeigt, wie die einzelnen Komponenten ineinandergreifen und gemeinsam den Plattform-Agenten Siri AI bilden.

Infografik zur Architektur von Siri AI mit Foundation Models, On-Device Intelligence, Private Cloud Compute, App Intents und Personal Context auf einem iPhone.

Plattformintegration schafft neue Verantwortung

Apple beschreibt Datenschutz seit vielen Jahren nicht nur als Produkteigenschaft, sondern als grundlegendes Prinzip der eigenen Plattformstrategie. Mit Apple Intelligence gewinnt dieser Anspruch noch einmal an Bedeutung. On-Device Intelligence, Private Cloud Compute und Personal Context verfolgen gemeinsam das Ziel, persönliche Informationen möglichst unter der Kontrolle der Benutzer:innen zu halten und nur in dem Umfang zu verarbeiten, der für eine konkrete Aufgabe erforderlich ist.

Dieser Ansatz passt konsequent zur bisherigen Apple-Philosophie. Das Unternehmen entwickelt Hardware, Betriebssystem, zentrale Sicherheitsmechanismen und große Teile des Software-Ökosystems aus einer Hand. Dadurch lassen sich KI-Funktionen tief in die Plattform integrieren und gleichzeitig Schutzmechanismen unmittelbar auf Architektur- und Systemebene verankern. Datenschutz wird dadurch nicht als nachträgliche Ergänzung verstanden, sondern als integraler Bestandteil der gesamten Plattform.

Gerade diese enge Verzahnung von Plattform, Kontext und Sicherheit führt jedoch zu einer neuen Verantwortung. Je leistungsfähiger Siri AI wird und je stärker der Assistent mit Anwendungen, persönlichen Informationen und Betriebssystemfunktionen verbunden ist, desto größer wird auch die Bedeutung fairer Zugangsregeln. Aus regulatorischer Sicht stellt sich deshalb nicht nur die Frage, wie persönliche Daten geschützt werden können. Ebenso relevant ist, ob konkurrierende KI-Agenten einen vergleichbaren Zugriff auf Systemfunktionen und Kontextinformationen erhalten müssen.

Damit wird deutlich, warum Apple Intelligence weit über eine technische Innovation hinausgeht. Die Plattformarchitektur bestimmt nicht nur, wie Siri AI arbeitet, sondern beeinflusst zugleich zentrale Fragen des Wettbewerbs, der Interoperabilität und der digitalen Souveränität. Genau an diesem Punkt setzt die weitere Diskussion um den Digital Markets Act an.

Apple baut keinen Unternehmens-Copilot

Die bisher betrachteten Architekturbausteine zeigen deutlich, welche Zielsetzung Apple mit Apple Intelligence verfolgt. Im Mittelpunkt steht kein universeller Wissensagent für Unternehmensdaten, sondern ein persönlicher Plattform-Agent, der den individuellen Nutzungskontext versteht und Benutzer:innen bei alltäglichen Aufgaben unterstützt. Seine Stärke liegt in der engen Verzahnung von Gerät, Betriebssystem, Anwendungen und persönlichem Kontext.

Damit eignet sich Siri AI insbesondere für Szenarien, in denen situative Informationen, geräteübergreifende Zusammenarbeit und persönliche Assistenz im Vordergrund stehen. Die Architektur ist darauf ausgelegt, Informationen aus dem unmittelbaren digitalen Umfeld einer Person zu verstehen und innerhalb der Plattform in konkrete Aktionen umzusetzen. Unternehmenswissen, kollaborative Arbeitsräume oder organisationsweite Wissensmodelle gehören dagegen bewusst nicht zum primären Fokus dieses Ansatzes.

Gerade diese Schwerpunktsetzung macht deutlich, dass Apple Intelligence eine andere Aufgabe erfüllt als unternehmensorientierte KI-Plattformen. Apple beantwortet die Frage, wie ein persönliches Gerät intelligenter, kontextbezogener und handlungsfähiger werden kann. Andere Plattformen – allen voran Microsoft 365 Copilot – verfolgen dagegen das Ziel, das Wissen einer gesamten Organisation nutzbar zu machen.

Beide Ansätze basieren auf modernen KI-Agenten und nutzen vergleichbare Basistechnologien. Sie unterscheiden sich jedoch grundlegend in der Art des Kontexts, den sie erschließen. Genau diese unterschiedliche Perspektive bildet den Ausgangspunkt für den weiteren Verlauf dieses Beitrags. Bevor wir den Architekturansatz von Microsoft betrachten, lohnt sich jedoch ein Blick auf eine häufig gestellte Frage: Warum wirkt Apple beim Thema künstliche Intelligenz eigentlich so spät – obwohl das Unternehmen seit vielen Jahren intensiv an Machine Learning und KI-Technologien arbeitet?

Exkurs: Warum wirkt Apple bei KI eigentlich so spät?

KI gehört bei Apple schon lange zur Plattform

Nach der Betrachtung der Architektur von Apple Intelligence stellt sich fast zwangsläufig eine Frage: Warum wirkt Apple beim Thema künstliche Intelligenz eigentlich so spät? Spätestens seit der Vorstellung von OpenAI ChatGPT entstand vielerorts der Eindruck, Apple habe den KI-Boom verschlafen und reagiere erst jetzt mit Apple Intelligence auf die Entwicklungen der vergangenen Jahre. Betrachtet man jedoch die technologische Entwicklung des Unternehmens, ergibt sich ein deutlich differenzierteres Bild.

Tatsächlich investiert Apple bereits seit vielen Jahren kontinuierlich in Verfahren des Machine Learning und der künstlichen Intelligenz. Bereits 2014 begann das Unternehmen damit, Siri grundlegend zu modernisieren und die Sprachassistenz schrittweise auf eine neue Machine-Learning-Architektur umzustellen. In den folgenden Jahren entstanden spezialisierte Neural Engines in den eigenen Prozessoren, leistungsfähige Frameworks für Entwickler:innen sowie zahlreiche KI-gestützte Funktionen innerhalb von iOS, iPadOS und macOS.

Viele dieser Technologien werden heute kaum noch als künstliche Intelligenz wahrgenommen, weil sie längst selbstverständlich geworden sind. Bildanalyse in der Fotos-App, Live Text, Gesichtserkennung, Handschrifterkennung oder intelligente Tastaturvorschläge basieren bereits seit Jahren auf Verfahren des maschinellen Lernens – lange bevor generative KI und große Sprachmodelle die öffentliche Diskussion dominierten.

Apple verstand künstliche Intelligenz deshalb nie als einzelnes Produkt oder als eigenständigen Cloud-Dienst. Vielmehr entwickelte sich KI schrittweise zu einer Basistechnologie der gesamten Plattform. Apple Intelligence markiert damit keinen abrupten Strategiewechsel, sondern den nächsten Entwicklungsschritt einer Architektur, in der künstliche Intelligenz seit vielen Jahren zunehmend tiefer in Hardware, Betriebssystem und Anwendungen integriert wird.

Try to be the best, not the first

Diese Vorgehensweise entspricht einer Strategie, die Apple seit vielen Jahren zugeschrieben wird. Das Unternehmen versucht nur selten, neue Technologien als erstes auf den Markt zu bringen. Stattdessen beobachtet Apple technologische Entwicklungen häufig über einen längeren Zeitraum, entwickelt die dafür notwendige Hard- und Software kontinuierlich weiter und integriert neue Funktionen erst dann tief in das eigene Ökosystem, wenn sie aus Sicht des Unternehmens ausgereift, leistungsfähig und für Millionen Benutzer:innen zuverlässig nutzbar sind.

Diese Philosophie wird häufig mit dem Leitsatz beschrieben:

„Try to be the best, not the first.“

Der eigentliche Innovationsanspruch liegt dabei weniger darin, eine Technologie zuerst zu präsentieren, sondern sie so in die Plattform einzubetten, dass daraus ein konsistentes und im Alltag überzeugendes Gesamtsystem entsteht.

Nicht zuerst – aber häufig der Maßstab

Ob grafische Benutzeroberflächen, Multi-Touch-Bedienung, Fingerabdrucksensoren, Smartwatches oder ARM-basierte Desktop-Prozessoren – in vielen Bereichen gehörte Apple nicht zu den ersten Anbietern. Häufig gelang es dem Unternehmen jedoch, bestehende Technologien so eng mit Hardware, Betriebssystem und Anwendungen zu verzahnen, dass daraus ein durchgängiges Benutzererlebnis entstand.

Gerade diese konsequente Integration führte dazu, dass viele Benutzer:innen Apple-Produkte später als Referenz für die jeweilige Technologie wahrnahmen. Smartphones mit Touchscreen, Smartwatches oder biometrische Authentifizierungsverfahren existierten bereits vor den entsprechenden Apple-Produkten. Dennoch prägten das iPhone mit seiner Multi-Touch-Bedienung, die Apple Watch oder Touch ID in vielen Bereichen die Erwartungen an Bedienkomfort, Systemintegration und Alltagstauglichkeit. Apple etablierte diese Technologien nicht unbedingt als Erster, trug jedoch maßgeblich dazu bei, sie für den Massenmarkt verständlich, zuverlässig und breit nutzbar zu machen.

Apple Intelligence folgt derselben Philosophie

Auch Apple Intelligence folgt diesem Muster. Der Fokus liegt nicht auf möglichst spektakulären Einzelmodellen oder der Veröffentlichung eines möglichst großen Sprachmodells. Stattdessen verfolgt Apple das Ziel, Foundation Models, On-Device Intelligence, Private Cloud Compute, App Intents und Personal Context zu einer durchgängigen Plattformarchitektur zu verbinden. Erst das Zusammenspiel dieser Komponenten ermöglicht einen KI-Agenten, der nicht nur Antworten erzeugt, sondern den persönlichen Nutzungskontext versteht und daraus konkrete Handlungen ableiten kann.

Damit wird auch verständlich, warum Apple Intelligence erst jetzt sichtbar wird. Nicht weil Apple künstliche Intelligenz erst seit Kurzem entwickelt, sondern weil aus Sicht des Unternehmens die technologischen Voraussetzungen heute erstmals erfüllt sind, um KI tief in Hardware, Betriebssystem und Anwendungen zu integrieren. Aus Apples Perspektive markiert Apple Intelligence daher keinen verspäteten Einstieg in die KI, sondern den konsequenten nächsten Schritt einer langfristig angelegten Plattformstrategie.

Apple Intelligence ist kein Neuanfang

Vor diesem Hintergrund erscheint Apple Intelligence in einem anderen Licht. Das Unternehmen springt nicht verspätet auf einen Technologietrend auf, sondern führt mehrere Entwicklungen zusammen, an denen teilweise bereits seit mehr als einem Jahrzehnt gearbeitet wird. Fortschritte bei Apple Silicon, leistungsfähige Neural Engines, spezialisierte Foundation Models, On-Device Intelligence und die kontinuierliche Weiterentwicklung des Betriebssystems bilden gemeinsam die Grundlage für den heutigen Plattform-Agenten Siri AI.

Aus Apples Sicht entsteht künstliche Intelligenz deshalb nicht durch ein einzelnes Sprachmodell. Erst das Zusammenspiel von Hardware, Betriebssystem, Anwendungen und persönlichem Nutzungskontext schafft die Voraussetzungen für einen KI-Agenten, der zuverlässig, performant und datenschutzorientiert arbeiten kann. Genau darin unterscheidet sich Apple Intelligence von vielen generativen KI-Angeboten der ersten Generation, die zunächst als eigenständige Cloud-Dienste entstanden und erst später schrittweise in bestehende Produkte integriert wurden.

Apple verfolgt damit konsequent eine Plattformstrategie. Nicht die künstliche Intelligenz steht im Mittelpunkt, sondern die Plattform, die durch KI um neue Fähigkeiten erweitert wird. Apple Intelligence bildet deshalb keinen eigenständigen Dienst neben iPhone, iPad oder Mac, sondern entwickelt sich zu einer weiteren Fähigkeit des gesamten Apple-Ökosystems.

Gerade diese Perspektive macht deutlich, dass sich Apple und Microsoft nicht in erster Linie durch die Qualität ihrer Sprachmodelle unterscheiden. Der eigentliche Unterschied liegt vielmehr in der Frage, welcher Kontext im Mittelpunkt der jeweiligen Architektur steht. Während Apple Intelligence den persönlichen Nutzungskontext erschließt, richtet Microsoft 365 Copilot seinen Fokus auf den Wissens- und Arbeitskontext einer gesamten Organisation. Genau dieser unterschiedliche Architekturansatz steht im Mittelpunkt des folgenden Kapitels.

Microsoft denkt KI vom Unternehmenswissen aus

Während Apple künstliche Intelligenz konsequent vom persönlichen Gerät und dem individuellen Nutzungskontext aus entwickelt, verfolgt Microsoft mit Microsoft 365 Copilot einen grundlegend anderen Architekturansatz. Im Mittelpunkt steht nicht das Endgerät, sondern das Wissen einer Organisation. Ziel ist es, Informationen aus Microsoft 365 nicht nur bereitzustellen, sondern sie im jeweiligen Arbeitskontext miteinander zu verknüpfen und für konkrete Geschäftsprozesse nutzbar zu machen.

Diese Unterscheidung ist grundlegend. Microsoft 365 Copilot ist weder ein klassischer Sprachassistent noch ein allgemeiner Chatbot. Das System arbeitet innerhalb der Microsoft-365-Umgebung und greift dabei auf vorhandene Informationen, Beziehungen und Berechtigungen zu. E-Mails, Kalender, Teams-Unterhaltungen, SharePoint-Dokumente, OneDrive-Dateien, Besprechungen, Aufgaben und viele weitere Informationsquellen bilden gemeinsam den Kontext, auf dessen Grundlage Copilot Antworten generiert und Arbeitsabläufe unterstützt.

Organisationswissen wird zum Kontext

Gerade dieser organisatorische Kontext entscheidet darüber, wie leistungsfähig Microsoft 365 Copilot in der Praxis arbeiten kann. Anders als allgemeine KI-Systeme verarbeitet Copilot Informationen nicht isoliert. Das System berücksichtigt die Beziehungen zwischen Dokumenten, Personen, Projekten, Besprechungen und den jeweils gültigen Berechtigungen. Aus einzelnen Informationen entsteht dadurch ein zusammenhängendes Wissensmodell der Organisation.

Welche zentrale Rolle dabei Microsoft Graph, Semantic Index, Daten-Governance und Berechtigungskonzepte spielen, habe ich bereits ausführlich im Beitrag Microsoft 365 Copilot administrieren: Daten, Governance, Agents und Sicherheit im Enterprise-Kontext erläutert. Dort wird deutlich, dass die Qualität der KI-Unterstützung unmittelbar von der Qualität, Struktur und Governance der zugrunde liegenden Unternehmensdaten abhängt.

Eine andere Antwort auf dieselbe Herausforderung

Damit verfolgt Microsoft dieselbe Grundidee wie Apple – allerdings mit einem anderen Schwerpunkt. Beide Unternehmen entwickeln KI-Agenten, deren Leistungsfähigkeit maßgeblich vom verfügbaren Kontext abhängt. Während Apple den Personal Context in den Mittelpunkt stellt und das persönliche Gerät zur zentralen Integrationsplattform macht, nutzt Microsoft den Organizational Context als Grundlage seiner Architektur.

Die zentrale Frage lautet deshalb nicht: „Was passiert gerade auf meinem Gerät?“, sondern: „Was weiß meine Organisation – und wie lässt sich dieses Wissen produktiv nutzen?“ Genau diese Perspektive prägt die Architektur von Microsoft 365 Copilot und bildet die Grundlage für die folgenden Architekturbausteine.

Der Microsoft Graph als organisatorisches Fundament

Die wichtigste Grundlage der Microsoft-KI-Architektur ist der Microsoft Graph. Er verbindet Informationen aus Microsoft 365 und beschreibt die Beziehungen zwischen Personen, Dateien, E-Mails, Teams-Unterhaltungen, Kalendern, Gruppen, Geräten und Anwendungen. Dadurch entsteht weit mehr als eine technische Programmierschnittstelle. Der Microsoft Graph bildet die Beziehungsschicht über die gesamte digitale Arbeitsumgebung einer Organisation.

Während klassische Anwendungen Informationen häufig isoliert verwalten, verknüpft der Microsoft Graph diese zu einem zusammenhängenden Netzwerk. Genau dieses Beziehungswissen bildet die Grundlage dafür, dass Microsoft 365 Copilot organisatorischen Kontext verstehen und für die Wissensarbeit nutzbar machen kann.

Beziehungen schaffen organisatorischen Kontext

Ein klassischer Dateispeicher kennt Dateien und Ordner. Der Microsoft Graph kennt zusätzlich deren Beziehungen. Er kann beispielsweise abbilden, welche Personen gemeinsam an einem Projekt arbeiten, welche Dokumente zu einer Besprechung gehören, welche Kommunikation sich auf eine bestimmte Aufgabe bezieht oder welche Informationen innerhalb eines Teams besonders relevant sind.

Erst diese Beziehungen machen aus einzelnen Informationen organisatorisches Wissen. Für Menschen entstehen solche Zusammenhänge häufig intuitiv. Ein KI-Agent muss sie jedoch explizit erschließen. Genau deshalb reicht es nicht aus, Dokumente oder E-Mails isoliert bereitzustellen. Entscheidend ist ihr Zusammenhang innerhalb der Organisation.

Das Fundament für Organizational Context

Damit übernimmt der Microsoft Graph innerhalb der Microsoft-Architektur eine ähnliche Rolle wie der Personal Context innerhalb von Apple Intelligence. Während Apple den persönlichen Nutzungskontext eines einzelnen Geräts erschließt, bildet der Microsoft Graph den organisatorischen Kontext einer gesamten Arbeitsumgebung ab.

Für ein Sprachmodell ist dieser Unterschied entscheidend. Eine Datei gewinnt ihren eigentlichen Wert erst dann, wenn bekannt ist, in welchem Projekt sie entstanden ist, wer daran gearbeitet hat, welche Besprechungen sie vorbereitet und welche Kommunikation damit verbunden ist. Der Microsoft Graph liefert genau diese semantische Umgebung und schafft damit die Grundlage für den Organizational Context, auf dem Microsoft 365 Copilot aufbaut.

Praxisbeispiel

Beziehungen statt einzelner Dokumente

Ein Projektleiter sucht nach allen Informationen zum Projekt Phoenix. Während klassische Suchfunktionen einzelne Dateien oder E-Mails liefern würden, erkennt der Microsoft Graph zusätzlich die Beziehungen zwischen Dokumenten, Teams-Besprechungen, Planner-Aufgaben, beteiligten Kolleg:innen und aktuellen Kalenderterminen. Dadurch entsteht nicht nur eine Trefferliste, sondern ein zusammenhängendes Bild des Projekts.

Berechtigungen bleiben Teil des Kontextes

Ein zentraler Aspekt der Microsoft-KI-Architektur wird häufig unterschätzt: Microsoft 365 Copilot arbeitet nicht außerhalb der bestehenden Sicherheits- und Berechtigungsmodelle. Der organisatorische Kontext, den Copilot nutzen kann, ergibt sich ausschließlich aus den Informationen, auf die Benutzer:innen bereits Zugriff besitzen. Berechtigungen sind deshalb kein nachgelagerter Sicherheitsmechanismus, sondern ein integraler Bestandteil des Organizational Context.

Der Microsoft Graph bildet nicht nur Beziehungen zwischen Informationen ab, sondern berücksichtigt zugleich Identitäten, Rollen und Zugriffsrechte. Dadurch bleibt das vorhandene Berechtigungskonzept von Microsoft 365 die maßgebliche Grundlage dafür, welche Informationen Copilot überhaupt in seine Antworten einbeziehen darf.

Warum Copilot Oversharing sichtbar macht

Gerade deshalb rückt mit Microsoft 365 Copilot ein Thema stärker in den Fokus, das viele Organisationen bereits seit Jahren begleitet: Oversharing. Gemeint sind Informationen oder Dokumente, die versehentlich einem größeren Personenkreis zugänglich sind als ursprünglich vorgesehen. Häufig entstehen solche Situationen durch großzügig vergebene Freigaben, historisch gewachsene Berechtigungen oder unzureichend gepflegte SharePoint- und Teams-Strukturen.

Copilot erzeugt dieses Oversharing nicht. Der KI-Agent macht jedoch deutlich sichtbar, welche Informationen innerhalb der bestehenden Berechtigungen tatsächlich verfügbar sind. Dokumente, die bisher zwar technisch erreichbar, im Alltag aber kaum gefunden wurden, können durch semantische Suche und kontextbezogene Antworten plötzlich wesentlich leichter auffindbar werden. Dadurch werden bestehende Governance-Probleme nicht geschaffen, sondern transparent.

Daten-Governance wird zum Erfolgsfaktor

Für Administrator:innen und IT-Verantwortliche ergibt sich daraus eine wichtige Konsequenz. Die Einführung von Microsoft 365 Copilot beginnt nicht mit der Aktivierung einer KI-Funktion, sondern mit einer kritischen Betrachtung der eigenen Informations- und Berechtigungsstrukturen. Daten-Governance, Informationsschutz, Sensitivity Labels, Berechtigungsmodelle und Lifecycle-Management entwickeln sich damit von administrativen Aufgaben zu zentralen Voraussetzungen einer erfolgreichen KI-Einführung.

Genau hier unterscheidet sich Unternehmens-KI von persönlicher Assistenz. Während Apple seinen Schwerpunkt auf den persönlichen Nutzungskontext und die Kontrolle über individuelle Daten legt, muss Microsoft sicherstellen, dass organisatorisches Wissen kontrolliert, nachvollziehbar und regelkonform genutzt werden kann. Der Organizational Context entfaltet seinen eigentlichen Wert deshalb nur dann, wenn Sicherheit, Compliance und Governance integraler Bestandteil der Architektur bleiben.

Semantic Index: Wenn Unternehmensdaten auffindbar werden

Der Microsoft Graph beschreibt Beziehungen zwischen Personen, Dokumenten, Besprechungen und vielen weiteren Informationen innerhalb von Microsoft 365. Für ein großes Sprachmodell reichen diese Beziehungen allein jedoch noch nicht aus. Damit Copilot Informationen effizient finden und in Antworten einbeziehen kann, benötigt das System zusätzlich eine semantische Erschließung der vorhandenen Inhalte. Genau diese Aufgabe übernimmt der Semantic Index for Copilot.

Er bildet die Brücke zwischen dem organisatorischen Wissen einer Organisation und den großen Sprachmodellen, die dieses Wissen später für Anfragen, Zusammenfassungen oder Analysen nutzen.

Semantische Suche statt reiner Schlüsselwörter

Klassische Suchsysteme arbeiten überwiegend mit Schlüsselwörtern. Der Semantic Index geht einen entscheidenden Schritt weiter. Er berücksichtigt nicht nur einzelne Begriffe, sondern auch deren Bedeutung, Beziehungen und den organisatorischen Kontext. Dadurch können Informationen gefunden werden, selbst wenn eine Anfrage andere Formulierungen verwendet als das zugrunde liegende Dokument.

Für Unternehmen ist das von erheblicher Bedeutung. Projekte werden in E-Mails häufig anders bezeichnet als in Microsoft Teams, SharePoint oder OneNote. Menschen erkennen solche Zusammenhänge meist intuitiv. Ein KI-Agent muss sie dagegen technisch erschließen. Der Semantic Index hilft Copilot dabei, inhaltlich verwandte Informationen miteinander zu verbinden und dadurch ein deutlich vollständigeres Bild der jeweiligen Fragestellung zu erzeugen.

Vom Informationsspeicher zum Wissensraum

Erst durch diese semantische Aufbereitung entwickelt sich eine Dokumentensammlung zu einem nutzbaren Wissensraum. Dateien, Nachrichten und Besprechungen bleiben nicht länger isolierte Informationsquellen, sondern werden im jeweiligen organisatorischen Zusammenhang betrachtet.

Der Semantic Index übernimmt damit innerhalb der Microsoft-Architektur eine zentrale Rolle. Während der Microsoft Graph die Beziehungen zwischen Informationen beschreibt, macht der Semantic Index diese Beziehungen für künstliche Intelligenz effizient nutzbar. Er schafft damit die Grundlage für den nächsten Architekturbaustein von Microsoft 365 Copilot: GraphRAG, das diese semantisch erschlossenen Informationen gezielt in die Antworten großer Sprachmodelle einbindet.

Praxisbeispiel

Unterschiedliche Begriffe – derselbe Zusammenhang

Ein Vertriebsteam bezeichnet ein Projekt in Microsoft Teams als Phoenix, während es in SharePoint unter Cloud Migration und in E-Mails lediglich als Kundenprojekt geführt wird. Für klassische Suchmaschinen wirken diese Informationen zunächst unabhängig voneinander. Der Semantic Index erkennt dagegen ihren fachlichen Zusammenhang und kann sie gemeinsam für eine Copilot-Anfrage berücksichtigen.

GraphRAG erweitert klassische Retrieval-Ansätze

Große Sprachmodelle verfügen nur über das Wissen, das ihnen während des Trainings vermittelt wurde. Damit sie auf aktuelle Unternehmensinformationen zugreifen können, wird häufig Retrieval-Augmented Generation (RAG) eingesetzt. Dabei sucht das System zunächst relevante Dokumente oder Informationsquellen und nutzt deren Inhalte anschließend als Grundlage für die Antwort des Sprachmodells.

Dieses Verfahren funktioniert sehr gut, solange die benötigten Informationen in einzelnen Dokumenten enthalten sind. In Unternehmensumgebungen verteilt sich relevantes Wissen jedoch häufig auf zahlreiche unterschiedliche Quellen. E-Mails, Teams-Unterhaltungen, Besprechungsnotizen, SharePoint-Dokumente oder Aufgabenlisten enthalten jeweils nur einen Teil der Gesamtinformation. Die eigentliche Bedeutung entsteht erst durch ihren Zusammenhang.

GraphRAG verbindet Inhalte und Beziehungen

Genau an dieser Stelle setzt GraphRAG an. Microsoft erweitert den klassischen RAG-Ansatz um die Beziehungen, die bereits im Microsoft Graph und im Semantic Index beschrieben werden. Das System sucht deshalb nicht nur nach einzelnen Dokumenten, sondern berücksichtigt zugleich deren organisatorischen Zusammenhang.

Eine Projektentscheidung lässt sich beispielsweise selten aus einer einzelnen Präsentation ableiten. Häufig ergeben sich wichtige Informationen erst aus der Kombination von Besprechungen, E-Mails, Aufgaben, Dokumentversionen und den beteiligten Personen. GraphRAG hilft Copilot dabei, diese Beziehungen zu erkennen und als zusammenhängenden Kontext für das Sprachmodell bereitzustellen.

Wissen statt Dokumente

Gerade dieser Architekturansatz macht den Unterschied zwischen einer klassischen Dokumentensuche und einem modernen Wissensagenten deutlich. Copilot liefert nicht einfach eine Liste passender Dateien, sondern kann Informationen aus unterschiedlichen Quellen in ihrem organisatorischen Zusammenhang interpretieren und verständlich zusammenführen.

Während der Microsoft Graph die Beziehungen innerhalb einer Organisation beschreibt und der Semantic Index diese Informationen semantisch erschließt, nutzt GraphRAG genau dieses Wissensmodell, um große Sprachmodelle mit relevantem Unternehmenskontext zu versorgen. Erst dadurch entsteht eine KI, die nicht nur Dokumente findet, sondern organisatorisches Wissen im Zusammenhang erklären kann.

Dieser Übergang von einzelnen Informationen zu gemeinsam nutzbarem Organisationswissen bildet zugleich die Grundlage für die nächsten Architekturbausteine von Microsoft 365 Copilot: Copilot Pages und Memory, die Wissen nicht nur abrufen, sondern über längere Arbeitsprozesse hinweg weiterentwickeln können.

Praxisbeispiel

Die Antwort steckt nicht in einem einzelnen Dokument

Vor einer Managemententscheidung fragt eine Projektleiterin nach den größten Risiken eines laufenden Projekts. Die relevanten Informationen befinden sich nicht in einem einzelnen Dokument, sondern verteilen sich auf Besprechungsprotokolle, Teams-Unterhaltungen, E-Mails und Aufgabenlisten. GraphRAG verbindet diese Informationsquellen und erstellt daraus eine fundierte Zusammenfassung des aktuellen Projektstands.

Copilot Pages machen KI-Ergebnisse kollaborativ

Mit Copilot Pages erweitert Microsoft den Copilot-Ansatz um eine kollaborative Arbeitsfläche. Ergebnisse einer KI-Interaktion bleiben nicht länger im Chatverlauf eingeschlossen, sondern können unmittelbar weiterbearbeitet, geteilt und gemeinsam genutzt werden. Dadurch entwickelt sich Copilot von einem dialogorientierten Assistenten zu einem festen Bestandteil der täglichen Wissensarbeit.

Diese Erweiterung ist architektonisch bedeutsam. Ein Chat liefert in der Regel eine Antwort auf eine konkrete Frage. Unternehmensprozesse bestehen jedoch selten aus einzelnen Antworten. Sie entwickeln sich über mehrere Arbeitsschritte hinweg und werden von verschiedenen Personen gemeinsam gestaltet.

Aus Antworten werden Arbeitsartefakte

Genau hier setzt Copilot Pages an. KI-generierte Inhalte werden zu weiterverwendbaren Arbeitsartefakten, die sich im Team kontinuierlich ergänzen und verfeinern lassen. Aus einer Zusammenfassung entsteht ein Konzept. Aus einer Analyse wird eine Entscheidungsvorlage. Aus einer Ideensammlung entwickelt sich ein gemeinsames Projektdokument. KI liefert damit nicht mehr nur Informationen, sondern unterstützt den gesamten Entstehungsprozess von Wissen.

Dieser Unterschied mag auf den ersten Blick unscheinbar erscheinen, verändert die Rolle künstlicher Intelligenz jedoch grundlegend. Copilot beantwortet nicht mehr ausschließlich Fragen, sondern begleitet Arbeitsprozesse über längere Zeiträume hinweg und integriert sich in die bestehende Zusammenarbeit einer Organisation.

Kollaboration wird Teil der KI-Architektur

Damit nähert sich Microsoft 365 Copilot der tatsächlichen Arbeitsweise moderner Unternehmen an. Wissen entsteht selten isoliert. Es wird diskutiert, ergänzt, bewertet und schließlich in Entscheidungen oder Projektergebnisse überführt. Copilot Pages bildet genau diesen Übergang zwischen generativer KI und kollaborativer Wissensarbeit ab.

Während Microsoft Graph, Semantic Index und GraphRAG den organisatorischen Kontext erschließen, sorgt Copilot Pages dafür, dass daraus gemeinsam nutzbares Wissen entsteht. Der Fokus verschiebt sich damit von der einmaligen KI-Antwort hin zu einem fortlaufenden Arbeitsprozess – ein entscheidender Unterschied zwischen einem klassischen Chatbot und einem KI-Agenten, der Teil der täglichen Wissensarbeit wird.

Memory personalisiert den organisatorischen Kontext

Der letzte Baustein der Microsoft-Architektur ist Copilot Memory. Während Microsoft Graph, Semantic Index und GraphRAG den organisatorischen Kontext erschließen und Copilot Pages daraus gemeinsam nutzbare Arbeitsartefakte entstehen lassen, ergänzt Memory diese Wissensbasis um individuelle Arbeitsweisen, Präferenzen und wiederkehrende Muster. Dadurch kann Copilot Antworten und Vorschläge stärker an die jeweilige Person anpassen, ohne den organisatorischen Kontext aus den Augen zu verlieren.

Dabei geht es nicht nur um Komfort oder Personalisierung. Menschen arbeiten unterschiedlich. Eine Führungskraft benötigt häufig Management-Zusammenfassungen und strategische Einordnungen, während Administrator:innen technische Details, Protokolle oder Konfigurationsinformationen bevorzugen. Projektmanager:innen wiederum legen Wert auf Aufgaben, Termine und Abhängigkeiten. Wenn Copilot diese individuellen Arbeitsweisen berücksichtigt, entstehen Antworten, die nicht nur fachlich korrekt, sondern auch für die jeweilige Rolle unmittelbar nutzbar sind.

Personalisierung braucht Transparenz

Mit dieser zusätzlichen Personalisierung steigen zugleich die Anforderungen an Transparenz und Kontrolle. Benutzer:innen und Administrator:innen müssen nachvollziehen können, welche Präferenzen Copilot berücksichtigt und wie sich diese auf die erzeugten Antworten auswirken. Memory ist deshalb kein unkontrollierter Datenspeicher, sondern eine steuerbare Erweiterung des organisatorischen Kontextmodells.

Gerade diese Kombination aus Microsoft Graph, Berechtigungen, Semantic Index, GraphRAG, Copilot Pages und Memory macht deutlich, dass Microsoft 365 Copilot weit mehr ist als ein Sprachmodell mit Zugriff auf Unternehmensdaten. Erst das Zusammenspiel aller Architekturbausteine ermöglicht einen KI-Agenten, der organisatorisches Wissen verstehen, individuelle Arbeitsweisen berücksichtigen und kollaborative Prozesse unterstützen kann.

Die folgende Abbildung fasst diese Architektur zusammen und zeigt, wie die einzelnen Komponenten ineinandergreifen und gemeinsam den organisatorischen Kontext von Microsoft 365 Copilot bilden.

Praxisbeispiel

Dieselbe Information – unterschiedliche Darstellung

Ein Administrator bevorzugt technische Detailinformationen mit Protokollen und Konfigurationsdaten. Eine Bereichsleitung benötigt dagegen eine Management-Zusammenfassung mit Risiken und Handlungsempfehlungen. Memory hilft Copilot dabei, Antworten an die jeweilige Arbeitsweise und die individuellen Präferenzen der Benutzer:innen anzupassen, ohne den zugrunde liegenden Organisationskontext zu verändern.

Die einzelnen Komponenten arbeiten in der Praxis nicht unabhängig voneinander. Erst ihr Zusammenspiel ermöglicht Microsoft 365 Copilot, organisatorischen Kontext zu verstehen, relevante Informationen zu erschließen und daraus fundierte Antworten oder konkrete Handlungsempfehlungen abzuleiten. Die folgende Abbildung fasst diese Architektur noch einmal zusammen.

Infografik zur Architektur von Microsoft 365 Copilot mit Microsoft Graph, Semantic Index, GraphRAG, Copilot Pages, Memory sowie Berechtigungs- und Sicherheitsmodell.

Organisationswissen wird zum eigentlichen KI-Rohstoff

Die Architektur von Microsoft 365 Copilot zeigt besonders deutlich, dass der eigentliche Wert moderner KI nicht allein im Sprachmodell liegt. Große Sprachmodelle übernehmen die Verarbeitung und Generierung von Inhalten. Der eigentliche Rohstoff, aus dem hochwertige Antworten entstehen, ist jedoch das Organisationswissen.

Dieses Wissen besteht nicht nur aus Dokumenten oder E-Mails. Es entsteht aus den Beziehungen zwischen Personen, Projekten, Besprechungen, Chats, Aufgaben, Richtlinien, Dateien und den über Jahre gewachsenen Arbeitsprozessen einer Organisation. Erst wenn diese Informationen miteinander verknüpft werden, entsteht der organisatorische Kontext, auf dessen Grundlage ein KI-Agent fundierte Entscheidungen und Handlungsempfehlungen ableiten kann.

Wissen wird zur strategischen Ressource

Genau deshalb ist Microsoft 365 Copilot weit mehr als eine zusätzliche Funktion innerhalb von Microsoft 365. Der KI-Agent arbeitet an einer Stelle, an der viele Unternehmen bereits heute einen großen Teil ihrer digitalen Zusammenarbeit organisieren. Je besser Informationen strukturiert, klassifiziert, berechtigt und semantisch erschlossen sind, desto größer wird der Nutzen, den Copilot aus diesem Organisationswissen ziehen kann.

Damit verändert sich auch die Bedeutung von Datenqualität und Informationsmanagement. Dokumente, Berechtigungen, Metadaten und Governance dienen nicht länger ausschließlich der Ordnung oder Compliance. Sie entwickeln sich zunehmend zu einer strategischen Voraussetzung dafür, dass künstliche Intelligenz überhaupt sinnvoll arbeiten kann.

Der Wissens-Agent

Microsoft 365 Copilot entwickelt sich damit zu einem Wissens-Agenten. Seine Stärke liegt nicht darin, Geräte zu steuern oder persönliche Alltagsaufgaben zu koordinieren, sondern das kollektive Wissen einer Organisation verständlich, auffindbar und produktiv nutzbar zu machen.

Damit schließt sich zugleich der Kreis zur zentralen These dieses Beitrags. Nicht das Sprachmodell macht einen KI-Agenten intelligent, sondern der Kontext, in dem er arbeitet. Während Apple Intelligence seinen Schwerpunkt auf den persönlichen Nutzungskontext legt, erschließt Microsoft 365 Copilot den Wissens- und Arbeitskontext einer gesamten Organisation. Genau dieser grundlegende Unterschied bildet den Ausgangspunkt für das folgende Kapitel, in dem beide Architekturansätze unmittelbar miteinander verglichen werden.

Personal Context versus Organizational Context

Auf den ersten Blick verfolgen Siri AI und Microsoft 365 Copilot ein ähnliches Ziel. Beide Systeme basieren auf modernen großen Sprachmodellen, verstehen natürliche Sprache und entwickeln sich zunehmend von klassischen Chatbots zu handlungsfähigen KI-Agenten. Sie sollen Informationen nicht nur beantworten, sondern Aufgaben unterstützen, Entscheidungen vorbereiten und innerhalb definierter Grenzen eigenständig Aktionen ausführen.

Gerade deshalb entsteht häufig der Eindruck, beide Plattformen würden dieselbe Aufgabe erfüllen. Tatsächlich unterscheiden sie sich jedoch bereits in ihrer grundlegenden Architektur. Der entscheidende Unterschied liegt nicht in der Leistungsfähigkeit der verwendeten Sprachmodelle. Viel wichtiger ist die Frage, welchen Kontext ein KI-Agent nutzen kann, um Situationen zu verstehen und sinnvolle Entscheidungen abzuleiten.

Diese Erkenntnis zieht sich wie ein roter Faden durch die Entwicklung moderner KI-Systeme. Große Sprachmodelle liefern heute eine beeindruckende Grundlage für Textverständnis und Sprachgenerierung. Ihre eigentliche Leistungsfähigkeit entsteht jedoch erst dann, wenn sie mit dem richtigen Kontext, geeigneten Werkzeugen und relevanten Datenquellen verbunden werden. Kontext wird damit zur eigentlichen Wissensquelle eines KI-Agenten.

Genau an dieser Stelle trennen sich die Wege von Apple und Microsoft. Apple Intelligence erschließt den Personal Context – also den persönlichen digitalen Alltag einer Benutzerin oder eines Benutzers. Dazu gehören Informationen aus Apps, Nachrichten, Kalendern, Dateien, Fotos oder aktuell genutzten Anwendungen. Microsoft 365 Copilot verfolgt dagegen einen anderen Ansatz. Hier steht der Organizational Context im Mittelpunkt: das Wissen einer Organisation, ihre Dokumente, Kommunikationswege, Projekte, Berechtigungen und Beziehungen zwischen Informationen.

Beide Unternehmen beantworten damit dieselbe technische Herausforderung auf unterschiedliche Weise. Ein KI-Agent benötigt Kontext, um über die reine Sprachverarbeitung hinaus sinnvoll handeln zu können. Apple sucht diesen Kontext im persönlichen Nutzungserlebnis auf dem Gerät. Microsoft erschließt ihn aus dem digitalen Wissensraum einer Organisation. Aus dieser unterschiedlichen Ausgangsbasis ergeben sich nahezu alle weiteren Unterschiede zwischen beiden Architekturen – von den Einsatzszenarien über Sicherheitsanforderungen bis hin zu regulatorischen Fragestellungen.

Architekturvergleich auf einen Blick

Bis hierhin zeigt sich bereits ein grundlegender Unterschied zwischen beiden Ansätzen. Obwohl Apple Intelligence und Microsoft 365 Copilot auf modernen Sprachmodellen basieren und sich zu handlungsfähigen KI-Agenten entwickeln, erschließen sie unterschiedliche Formen von Kontext.

Vergleich zwischen Apple Intelligence und Microsoft 365 Copilot mit Fokus auf Personal Context, Organizational Context sowie den unterschiedlichen KI-Plattformstrategien.

Die Abbildung fasst die beiden Architekturansätze noch einmal gegenüber. Deutlich wird, dass sich Apple Intelligence und Microsoft 365 Copilot weniger durch die Leistungsfähigkeit ihrer Sprachmodelle als vielmehr durch die Quelle ihres Kontexts unterscheiden. Apple entwickelt einen Plattform-Agenten, dessen Intelligenz aus dem persönlichen Nutzungskontext von Gerät, Betriebssystem und Apps entsteht. Microsoft verfolgt dagegen den Ansatz eines Wissens-Agenten, der den semantisch erschlossenen Informations- und Arbeitskontext einer Organisation nutzt.

Diese Unterscheidung bildet den architektonischen Kern moderner KI-Agenten. Nicht das Sprachmodell allein entscheidet über den praktischen Nutzen eines Systems, sondern die Frage, auf welchen Kontext es zugreifen kann, welche Werkzeuge ihm zur Verfügung stehen und innerhalb welcher Grenzen es handeln darf.

Plattform-Agent und Wissens-Agent

Obwohl beide Begriffe in der öffentlichen Diskussion bislang kaum verwendet werden, beschreiben sie zwei unterschiedliche Architekturprinzipien moderner KI-Agenten.

—Plattform-Agent—

Ein Plattform-Agent bezieht seine Intelligenz aus dem persönlichen Nutzungskontext eines Geräts. Er kennt beispielsweise den Kalender, Kontakte, Nachrichten, Fotos, Apps und den aktuellen Gerätezustand. Seine Stärke liegt darin, Benutzer:innen bei alltäglichen Aufgaben zu unterstützen und Aktionen über verschiedene Anwendungen hinweg zu koordinieren. Apple Intelligence mit Siri AI folgt diesem Architekturprinzip.

—Wissens-Agent—

Ein Wissens-Agent erschließt dagegen den Informations- und Arbeitskontext einer Organisation. Er nutzt Organisationswissen, semantische Beziehungen, Berechtigungen und kollaborative Arbeitsprozesse, um Informationen zu analysieren, Zusammenhänge zu erkennen und Wissensarbeit zu unterstützen. Microsoft 365 Copilot ist ein typisches Beispiel für diese Architekturklasse.

Beide Konzepte schließen sich nicht gegenseitig aus. Im Gegenteil: Zukünftige Multi-Agent-Systeme werden voraussichtlich beide Architekturtypen miteinander verbinden. Plattform-Agenten liefern den persönlichen Nutzungskontext, Wissens-Agenten ergänzen das organisatorische Wissen. Erst ihr Zusammenspiel ermöglicht eine ganzheitliche KI-Unterstützung.

Gerät versus Organisation

Apple entwickelt künstliche Intelligenz konsequent vom Endgerät aus. iPhone, iPad und Mac bilden den zentralen Ausgangspunkt sämtlicher KI-Interaktionen. Dort entstehen persönliche Nachrichten, Fotos, Termine, Dateien, App-Aktivitäten und zahlreiche weitere Informationen, die den individuellen digitalen Alltag einer Benutzerin oder eines Benutzers beschreiben. Siri AI nutzt genau diesen persönlichen Nutzungskontext, um Anfragen zu verstehen, Situationen einzuordnen und passende Aktionen über App-Grenzen hinweg auszuführen.

Aus Sicht von Apple ist das Gerät weit mehr als eine Hardwareplattform. Es bildet den Ort, an dem persönlicher Kontext entsteht und zusammengeführt wird. Deshalb stehen On-Device Intelligence, App Intents und Personal Context im Mittelpunkt der gesamten Architektur.

Die Organisation als Ausgangspunkt der KI

Microsoft verfolgt einen grundlegend anderen Ansatz. Der Ausgangspunkt ist nicht das Endgerät, sondern die Organisation als digitaler Arbeitsraum. Informationen entstehen hier nicht isoliert auf einem einzelnen Gerät, sondern verteilt über E-Mails, Teams-Unterhaltungen, SharePoint-Dokumente, OneDrive-Dateien, Besprechungen, Aufgaben, Berechtigungen und zahlreiche weitere Dienste innerhalb von Microsoft 365.

Microsoft 365 Copilot nutzt diesen organisatorischen Kontext, um Zusammenhänge zwischen Informationen herzustellen und Wissensarbeit zu unterstützen. Der Arbeitsplatz einer Benutzerin oder eines Benutzers endet deshalb nicht am eigenen Notebook oder Smartphone, sondern umfasst den gesamten digitalen Wissensraum der Organisation.

Unterschiedliche Architektur – unterschiedlicher Fokus

Diese unterschiedliche Ausgangsbasis erklärt, warum beide Systeme trotz vergleichbarer KI-Technologien völlig unterschiedlich wirken. Siri AI soll den persönlichen digitalen Alltag vereinfachen und Benutzer:innen bei situativen Aufgaben unmittelbar unterstützen. Microsoft 365 Copilot verfolgt dagegen das Ziel, organisatorisches Wissen auffindbar zu machen, Zusammenhänge zu erkennen und produktive Wissensarbeit zu erleichtern.

Das Endgerät spielt dabei auch für Microsoft eine wichtige Rolle. Es dient jedoch in erster Linie als Zugangspunkt zu einer cloudbasierten Wissensplattform. Bei Apple verhält es sich genau umgekehrt: Hier bildet das Gerät selbst den Mittelpunkt der KI-Architektur, während Cloud-Dienste diese Plattform lediglich ergänzen. Diese unterschiedliche Gewichtung prägt sämtliche weiteren Architekturentscheidungen beider Unternehmen.

Aktionen versus Wissensarbeit

Aus den unterschiedlichen Kontextwelten ergibt sich zwangsläufig auch ein unterschiedlicher Handlungsschwerpunkt. Apple Intelligence ist darauf ausgelegt, Benutzer:innen bei konkreten Aktionen im persönlichen digitalen Alltag zu unterstützen. Siri AI soll Nachrichten versenden, Termine koordinieren, Dateien finden, Informationen zwischen Apps austauschen oder mehrstufige Arbeitsabläufe über verschiedene Anwendungen hinweg ausführen.

Im Mittelpunkt steht dabei nicht in erster Linie die Generierung neuer Inhalte, sondern die Frage: Welche Handlung ist in der aktuellen Situation sinnvoll? Der Plattform-Agent versteht den persönlichen Nutzungskontext und unterstützt dabei, Aufgaben möglichst nahtlos und ohne Medienbrüche auszuführen.

Microsoft optimiert den Wissensfluss

Microsoft 365 Copilot verfolgt einen anderen Schwerpunkt. Im Zentrum stehen Wissensarbeit und Zusammenarbeit innerhalb einer Organisation. Copilot soll Informationen zusammenfassen, Besprechungen vorbereiten, Dokumente analysieren, Entscheidungsgrundlagen erstellen oder relevantes Projektwissen auffindbar machen.

Die zentrale Fragestellung lautet hier nicht: „Welche Aktion soll als Nächstes ausgeführt werden?“, sondern: „Welches Wissen wird für den nächsten Arbeitsschritt benötigt?“ Der KI-Agent unterstützt damit nicht primär einzelne Bedienhandlungen, sondern die Verarbeitung, Einordnung und Weiterentwicklung organisatorischen Wissens.

Unterschiedliche Schwerpunkte – keine Gegensätze

Natürlich überschneiden sich beide Ansätze. Siri AI kann Texte zusammenfassen oder Informationen analysieren, während Microsoft 365 Copilot zunehmend auch Aktionen innerhalb der Microsoft-365-Umgebung ausführen kann. Mit der Weiterentwicklung agentischer Funktionen werden sich diese Überschneidungen künftig sogar weiter verstärken.

Dennoch bleibt die grundlegende Gewichtung unterschiedlich. Apple optimiert den persönlichen Handlungsfluss rund um Gerät, Betriebssystem und Anwendungen. Microsoft optimiert den Umgang mit organisatorischem Wissen und dessen Einbindung in kollaborative Arbeitsprozesse. Beide Systeme verfolgen damit unterschiedliche Schwerpunkte, obwohl sie auf vergleichbaren KI-Technologien basieren.

Zwei unterschiedliche Antworten auf dieselbe Herausforderung

Die zentrale Herausforderung moderner KI-Agenten lautet nicht mehr, Sprache zu verstehen oder Texte zu erzeugen. Große Sprachmodelle beherrschen diese Aufgaben heute bereits auf einem sehr hohen Niveau. Entscheidend ist vielmehr die Frage, wie ein KI-Agent den Kontext erhält, den er für sinnvolle Entscheidungen und eigenständiges Handeln benötigt. Ohne Kontext bleibt künstliche Intelligenz allgemein. Erst durch den Kontext wird sie situationsbezogen, hilfreich und handlungsfähig.

Genau an diesem Punkt verfolgen Apple und Microsoft zwei unterschiedliche Architekturansätze.

Zwei Architekturen – ein gemeinsames Ziel

Apple beantwortet diese Herausforderung durch eine tief integrierte Plattformarchitektur. Foundation Models, On-Device Intelligence, Private Cloud Compute, App Intents und Personal Context greifen ineinander und schaffen einen KI-Agenten, der den persönlichen Nutzungskontext versteht und daraus konkrete Aktionen ableiten kann.

Microsoft verfolgt denselben Grundgedanken, erschließt den erforderlichen Kontext jedoch auf andere Weise. Microsoft Graph, Semantic Index, GraphRAG, Copilot Pages und Memory verbinden Informationen, Beziehungen und individuelle Arbeitsweisen zu einem organisatorischen Wissensmodell. Dadurch entsteht ein KI-Agent, der nicht nur Inhalte verarbeitet, sondern Zusammenhänge, Berechtigungen und Arbeitsprozesse innerhalb einer Organisation berücksichtigt.

Unterschiedliche Schwerpunkte statt besser oder schlechter

Beide Architekturansätze verfolgen somit dasselbe Ziel: Sie erweitern große Sprachmodelle um den Kontext, der für produktive KI erforderlich ist. Der Unterschied liegt nicht in der grundsätzlichen Leistungsfähigkeit der verwendeten Modelle, sondern in der Quelle dieses Kontexts und dem Einsatzbereich des jeweiligen KI-Agenten.

Apple möchte den persönlichen digitalen Alltag intelligenter, intuitiver und handlungsfähiger gestalten. Microsoft konzentriert sich darauf, das Wissen einer Organisation strukturiert zu erschließen und für die tägliche Wissensarbeit nutzbar zu machen. Beide Systeme lösen daher nicht dieselbe Aufgabe auf unterschiedliche Weise, sondern unterschiedliche Aufgaben mit vergleichbaren technologischen Grundprinzipien.

Architektur entscheidet über den Einsatzbereich

Für IT-Verantwortliche ist die Unterscheidung zwischen einem Plattform-Agenten und einem Wissens-Agenten weit mehr als eine Produktfrage. Sie betrifft grundlegende Architekturentscheidungen. Wer KI-Agenten einführt, muss verstehen, welcher Kontext genutzt wird, wo Daten verarbeitet werden, welche Berechtigungen gelten und welche Systeme miteinander interagieren.

Die Einführung eines persönlichen Plattform-Agenten stellt deshalb andere Anforderungen als der Einsatz eines Wissens-Agenten innerhalb einer Organisation. Bei Apple stehen insbesondere Gerätesicherheit, Datenschutz, App-Berechtigungen und die Integration in das Betriebssystem im Vordergrund. Microsoft konzentriert sich dagegen auf Datenqualität, Berechtigungsmodelle, Informationsschutz, Governance und Compliance innerhalb des organisatorischen Wissensraums.

Kontext wird zur strategischen Ressource

Damit wird deutlich, dass sich moderne KI-Agenten nicht allein anhand ihres Funktionsumfangs bewerten lassen. Entscheidend ist vielmehr, welche Kontextquelle sie erschließen und welche Verantwortung mit deren Nutzung verbunden ist. Je umfassender ein KI-Agent auf persönliche oder organisatorische Informationen zugreifen kann, desto wichtiger werden Fragen nach Sicherheit, Transparenz und Kontrolle.

Genau an diesem Punkt entwickelt sich der Kontext selbst zu einer strategischen Ressource. Wer den Zugriff auf den relevanten Kontext steuert, beeinflusst zugleich die Leistungsfähigkeit eines KI-Agenten. Deshalb reicht die Diskussion über künstliche Intelligenz längst über Sprachmodelle und einzelne Funktionen hinaus. Sie berührt zunehmend grundlegende Fragen der Plattformarchitektur, der Interoperabilität und des Wettbewerbs.

Damit führt der Vergleich zwischen Siri AI und Microsoft 365 Copilot unmittelbar zur nächsten Fragestellung: Wer kontrolliert künftig den Zugang zu diesem Kontext – und welche Regeln gelten für Plattformen, auf denen moderne KI-Agenten arbeiten? Genau diese Fragen stehen im Mittelpunkt des folgenden Kapitels zum Digital Markets Act.

Vom Produktvergleich zur Architekturfrage

Die Diskussion um Siri AI und Microsoft 365 Copilot wird häufig als Wettbewerb zweier KI-Assistenten verstanden. Diese Sichtweise greift jedoch zu kurz. Beide Systeme stehen exemplarisch für zwei unterschiedliche Architekturklassen moderner KI-Agenten, die jeweils einen anderen Teil der digitalen Welt erschließen.

Siri AI ist ein Plattform-Agent. Seine Stärke entsteht aus der engen Verzahnung mit Gerät, Betriebssystem, Apps und dem persönlichen Nutzungskontext. Microsoft 365 Copilot ist dagegen ein Wissens-Agent. Seine Leistungsfähigkeit basiert auf dem Zugriff auf Organisationswissen, semantische Beziehungen, Berechtigungsmodelle und kollaborative Arbeitsprozesse.

Damit verschiebt sich auch die Art, wie moderne KI-Systeme bewertet werden. Entscheidend ist längst nicht mehr allein, wie überzeugend ein Sprachmodell formuliert oder wie schnell es Antworten erzeugt. Ausschlaggebend ist vielmehr, welchen Kontext ein KI-Agent erschließen kann, welche Werkzeuge ihm zur Verfügung stehen und innerhalb welcher Grenzen er eigenständig handeln darf.

Gerade diese Entwicklung markiert einen grundlegenden Wandel. Die nächste Generation künstlicher Intelligenz wird sich nicht mehr ausschließlich über immer leistungsfähigere Sprachmodelle definieren, sondern über die Fähigkeit, unterschiedliche Kontextquellen, Werkzeuge und spezialisierte Agenten miteinander zu verbinden. Moderne KI entwickelt sich damit von der reinen Sprachverarbeitung hin zu einer intelligenten Plattformarchitektur.

Wie ein solches Zusammenspiel in der Praxis aussehen kann, zeigt das folgende Beispiel. Es verdeutlicht, dass Plattform-Agenten und Wissens-Agenten künftig nicht zwangsläufig miteinander konkurrieren, sondern sich gegenseitig ergänzen und gemeinsam Aufgaben lösen können.

Exkurs: Wenn Siri AI und Microsoft 365 Copilot dieselbe Aufgabe lösen

Ein realistisches Zukunftsszenario

Nachdem die unterschiedlichen Architekturansätze betrachtet wurden, stellt sich eine spannende Frage: Was passiert eigentlich, wenn beide Systeme gemeinsam dieselbe Aufgabe unterstützen? Genau darin könnte die nächste Evolutionsstufe moderner KI-Agenten liegen. Statt miteinander zu konkurrieren, arbeiten spezialisierte Agenten zusammen und nutzen ihre jeweiligen Stärken.

Ein Vertriebsmitarbeiter ist mit seinem iPhone auf dem Weg zu einem Kundentermin. Das Unternehmen nutzt Microsoft 365, Microsoft Teams und Microsoft 365 Copilot. Gleichzeitig steht auf dem iPhone Apple Intelligence mit Siri AI zur Verfügung.

Kurz vor dem Termin sagt der Mitarbeiter:

„Bereite mich bitte auf mein Meeting mit Contoso vor.“

Aus Sicht des Benutzers ist dies lediglich eine natürliche Sprachanweisung. Hinter den Kulissen könnte jedoch eine komplexe Zusammenarbeit mehrerer KI-Agenten stattfinden. Siri AI kennt den persönlichen Nutzungskontext des Geräts, während Microsoft 365 Copilot den Wissens- und Arbeitskontext der Organisation erschließt. Beide Agenten greifen auf unterschiedliche Informationsquellen zu, verfolgen jedoch dasselbe Ziel: den Benutzer möglichst optimal auf den bevorstehenden Termin vorzubereiten.

Gerade dieses Beispiel verdeutlicht, warum der Wettbewerb der Zukunft vermutlich nicht zwischen einzelnen KI-Assistenten stattfinden wird. Entscheidend wird vielmehr sein, wie gut unterschiedliche Agenten ihre jeweiligen Kontextwelten miteinander verbinden und daraus einen gemeinsamen Mehrwert schaffen können.

Schritt 1: Siri AI versteht die persönliche Situation

Der erste Schritt erfolgt vollständig innerhalb des persönlichen Nutzungskontexts. Siri AI analysiert die aktuelle Situation auf dem iPhone und kombiniert dabei Informationen aus dem Kalender, dem Standort, der aktuellen Uhrzeit sowie weiteren Daten, auf die der Plattform-Agent entsprechend der erteilten Berechtigungen zugreifen darf.

Dabei entsteht ein umfassendes Bild der unmittelbaren Situation. Siri AI erkennt beispielsweise den bevorstehenden Kalendereintrag, berechnet anhand des aktuellen Standorts die verbleibende Fahrzeit, berücksichtigt zuletzt geöffnete Dokumente, relevante Kontakte, aktuelle Nachrichten sowie die momentan genutzten Apps. Ergänzt wird dieses Bild durch persönliche Präferenzen und wiederkehrende Nutzungsmuster der jeweiligen Benutzerin oder des jeweiligen Benutzers.

Die entscheidende Fragestellung lautet aus Sicht des Plattform-Agenten daher nicht: „Welche Informationen kenne ich?“, sondern: „Welche Informationen benötigt diese Person genau in diesem Moment?“ Erst aus dieser situativen Einordnung kann Siri AI entscheiden, welche weiteren Informationen erforderlich sind und welche Aufgaben gegebenenfalls an andere spezialisierte KI-Agenten übergeben werden sollten.

Zu diesem Zeitpunkt verfügt Siri AI bereits über ein sehr präzises Verständnis der persönlichen Situation. Was dem Plattform-Agenten jedoch noch fehlt, ist der geschäftliche Kontext. Welche Informationen über den Kunden existieren? Welche Kolleg:innen arbeiten an dem Projekt? Welche Dokumente sind aktuell relevant? Genau an dieser Stelle übernimmt der zweite Architekturbaustein die weitere Verarbeitung: Microsoft 365 Copilot.

Schritt 2: Microsoft 365 Copilot ergänzt den organisatorischen Kontext

Während Siri AI den persönlichen Nutzungskontext erschließt, übernimmt Microsoft 365 Copilot den zweiten Teil der Aufgabe: den organisatorischen Wissenskontext. Auf Grundlage des Microsoft Graph, des Semantic Index und der vorhandenen Berechtigungen analysiert der Wissens-Agent die Informationen, die innerhalb der Organisation zu diesem Kundentermin verfügbar sind.

Dabei berücksichtigt Copilot unter anderem den bisherigen E-Mail-Verkehr mit dem Kunden, vergangene Teams-Besprechungen, aktuelle Projektunterlagen, offene Aufgaben, Verantwortlichkeiten im Projekt, dokumentierte Risiken, Verkaufschancen sowie zuletzt bearbeitete Präsentationen oder Besprechungsvorlagen. Anders als eine klassische Unternehmenssuche betrachtet Copilot diese Informationen nicht isoliert, sondern ordnet sie anhand ihrer Beziehungen und ihres organisatorischen Zusammenhangs ein.

Die zentrale Fragestellung lautet nun nicht mehr: „Was passiert gerade auf dem Gerät?“, sondern: „Welches Wissen besitzt die Organisation zu diesem Kunden – und welche Informationen sind für den bevorstehenden Termin relevant?“

Aus diesen Informationen erstellt Microsoft 365 Copilot eine strukturierte Besprechungsvorbereitung. Dabei werden ausschließlich Inhalte berücksichtigt, auf die der Vertriebsmitarbeiter aufgrund seiner bestehenden Berechtigungen tatsächlich zugreifen darf. Auch in diesem Szenario bleibt das Sicherheitsmodell von Microsoft 365 vollständig erhalten – der KI-Agent erweitert den Zugriff auf Informationen nicht, sondern nutzt ausschließlich den bereits vorhandenen organisatorischen Kontext.

Damit liegen nun zwei unterschiedliche Perspektiven auf dieselbe Aufgabe vor. Siri AI kennt die persönliche Situation des Mitarbeiters, Microsoft 365 Copilot den geschäftlichen Kontext des Kunden. Erst die Kombination beider Sichtweisen ermöglicht eine Vorbereitung, die sowohl den aktuellen Nutzungskontext als auch das vorhandene Organisationswissen berücksichtigt.

Zwei Agenten – ein gemeinsames Ergebnis

Erst das Zusammenspiel beider Systeme erzeugt ein vollständiges Gesamtbild. Während Siri AI den persönlichen Nutzungskontext kennt und weiß, wo sich der Mitarbeiter gerade befindet, welche Termine unmittelbar bevorstehen, welche Apps geöffnet sind und welche persönlichen Informationen für die aktuelle Situation relevant sind, ergänzt Microsoft 365 Copilot diese Perspektive um den organisatorischen Wissenskontext. Der Wissens-Agent kennt den bisherigen E-Mail-Verkehr mit dem Kunden, aktuelle Projektunterlagen, beteiligte Kolleg:innen, offene Aufgaben, Besprechungsprotokolle und die geschäftlichen Zusammenhänge, die für den bevorstehenden Termin von Bedeutung sind.

Für den Benutzer verschmelzen diese beiden Kontextwelten zu einer einzigen Unterstützung. Er muss weder zwischen verschiedenen Anwendungen wechseln noch mehrere Suchanfragen formulieren. Stattdessen erhält er beispielsweise die folgende Rückmeldung:

„Du erreichst den Kunden in zwölf Minuten. Ich habe die aktuelle Präsentation geöffnet, die wichtigsten Änderungen seit dem letzten Termin zusammengefasst, offene Punkte aus Microsoft Teams ergänzt und die drei größten Projektrisiken hervorgehoben. Außerdem liegt seit gestern eine neue Entscheidung des Kunden vor, die im Gespräch berücksichtigt werden sollte.“

Aus Sicht des Benutzers wirkt diese Antwort wie das Ergebnis eines einzigen intelligenten Assistenten. Tatsächlich entsteht sie jedoch durch das Zusammenspiel mehrerer spezialisierter KI-Agenten, die jeweils unterschiedliche Kontextquellen erschließen. Siri AI liefert den situativen und persönlichen Nutzungskontext, Microsoft 365 Copilot ergänzt den organisatorischen Wissenskontext. Erst ihre Kombination ermöglicht eine Unterstützung, die sowohl zur aktuellen Situation als auch zum fachlichen Inhalt des Termins passt.

Genau darin zeichnet sich bereits heute die nächste Evolutionsstufe künstlicher Intelligenz ab. Die Zukunft gehört vermutlich nicht einem universellen Super-Agenten, der sämtliche Aufgaben allein übernimmt. Stattdessen werden spezialisierte Plattform-, Wissens- und Fachagenten ihre jeweiligen Stärken miteinander verbinden und gemeinsam Ergebnisse erzeugen, die weit über die Fähigkeiten eines einzelnen KI-Systems hinausgehen.

Der eigentliche Mehrwert entsteht durch Zusammenarbeit

Dieses Zukunftsszenario verdeutlicht, dass Personal Context und Organizational Context keine konkurrierenden Konzepte sind. Vielmehr erschließen sie unterschiedliche Bereiche derselben Realität. Apple Intelligence liefert den persönlichen Nutzungskontext des Geräts und der jeweiligen Benutzerin oder des jeweiligen Benutzers. Microsoft 365 Copilot ergänzt diesen um den Wissens- und Arbeitskontext der Organisation. Erst aus der Kombination beider Perspektiven entsteht ein umfassendes Verständnis der jeweiligen Situation.

Gerade darin könnte sich die nächste Evolutionsstufe künstlicher Intelligenz abzeichnen. Der Mehrwert moderner KI wird künftig immer seltener aus einem einzelnen, universellen Assistenten entstehen. Stattdessen werden spezialisierte Plattform-, Wissens- und Fachagenten ihre jeweiligen Stärken miteinander verbinden und ihre Ergebnisse zu einer gemeinsamen Unterstützung zusammenführen. Für die Benutzer:innen tritt diese Zusammenarbeit dabei weitgehend in den Hintergrund – sie erleben einen konsistenten digitalen Assistenten, obwohl im Hintergrund mehrere spezialisierte KI-Systeme kooperieren.

Diese Entwicklung verändert zugleich den Blick auf moderne KI-Architekturen. Nicht der einzelne Agent steht künftig im Mittelpunkt, sondern das Zusammenspiel verschiedener Kontextquellen, Werkzeuge und spezialisierter Fähigkeiten. Genau diese Form der Zusammenarbeit bildet die Grundlage sogenannter Multi-Agent-Systeme – und damit den Ausgangspunkt für das abschließende Kapitel dieses Beitrags.

Warum der Digital Markets Act plötzlich eine Schlüsselrolle spielt

Der Vergleich zwischen Siri AI und Microsoft 365 Copilot zeigt, dass moderne KI-Agenten ihre Leistungsfähigkeit nicht allein aus großen Sprachmodellen beziehen. Entscheidend ist vielmehr der Zugriff auf den jeweiligen Kontext sowie auf die Werkzeuge und Plattformfunktionen, die daraus intelligentes Handeln ermöglichen. Genau an dieser Stelle beginnt jedoch eine neue regulatorische Fragestellung: Wer entscheidet eigentlich darüber, welche KI-Agenten auf diesen Kontext zugreifen dürfen?

Der Digital Markets Act (DMA) ist keine klassische Datenschutzverordnung und auch kein allgemeines KI-Gesetz. Er richtet sich an besonders marktmächtige digitale Plattformen, die als sogenannte Gatekeeper zentrale Zugangspunkte zu digitalen Märkten kontrollieren. Dazu zählen unter anderem Betriebssysteme, App Stores, Suchmaschinen, Browser, soziale Netzwerke, Messenger und andere zentrale Plattformdienste.

Ein Gatekeeper entscheidet nicht nur darüber, welche eigenen Dienste auf einer Plattform verfügbar sind. Er kann auch beeinflussen, welche Wettbewerber Zugang zu Benutzer:innen, Schnittstellen, Daten oder Systemfunktionen erhalten. Genau an dieser Stelle setzt der DMA an. Er soll verhindern, dass marktmächtige Plattformanbieter ihre Kontrolle über digitale Ökosysteme nutzen, um eigene Dienste systematisch zu bevorzugen oder konkurrierende Angebote zu benachteiligen.

Für Apple ist diese Fragestellung von besonderer Bedeutung, weil iOS, iPadOS, der App Store und zentrale Plattformfunktionen eng miteinander verzahnt sind. Mit Apple Intelligence und Siri AI rückt nun jedoch eine neue Ebene in den Mittelpunkt. Sobald KI-Agenten tief in Betriebssysteme integriert werden, verlagert sich die Diskussion von App Stores und Zahlungsdiensten hin zur eigentlichen Kontext- und Aktionsschicht des Betriebssystems. Die entscheidende Frage lautet dann nicht mehr, welche App installiert werden darf, sondern welcher KI-Agent künftig den persönlichen Nutzungskontext verstehen, auf Systemfunktionen zugreifen und eigenständig Aktionen ausführen darf.

Gatekeeper verständlich erklärt

Der Begriff Gatekeeper beschreibt im Digital Markets Act Unternehmen, die aufgrund ihrer Marktstellung eine zentrale Vermittlerrolle zwischen gewerblichen Anbietern und Endnutzer:innen einnehmen. Vereinfacht gesagt kontrollieren sie ein digitales Tor, über das andere Anbieter ihre Dienste bereitstellen oder Benutzer:innen erreichen. Je wichtiger eine Plattform für den Zugang zum Markt wird, desto größer wird auch die Verantwortung ihres Betreibers.

Diese Rolle ist nicht grundsätzlich problematisch. Große Plattformen können Innovation fördern, Sicherheitsmechanismen vereinheitlichen und ein konsistentes Benutzererlebnis schaffen. Kritisch wird es jedoch, wenn dieselbe Plattform gleichzeitig den Zugang kontrolliert und eigene konkurrierende Dienste anbietet. In diesem Moment entsteht ein strukturelles Spannungsfeld: Der Plattformbetreiber ist zugleich Infrastrukturanbieter, Regelsetzer und Wettbewerber.

Vom Browser zum KI-Agenten

Ein Blick in die Vergangenheit verdeutlicht dieses Prinzip. Ende der 1990er- und Anfang der 2000er-Jahre geriet Microsoft ins Visier der Wettbewerbshüter, weil der Internet Explorer eng mit Windows verzahnt war. Wettbewerber argumentierten damals, Microsoft verschaffe seinem eigenen Browser durch die tiefe Integration in das Betriebssystem einen Wettbewerbsvorteil gegenüber alternativen Angeboten. Die daraus entstandenen kartellrechtlichen Verfahren – darunter der spätere Browser-Auswahlbildschirm in Europa – prägten den Umgang mit digitalen Plattformen nachhaltig.

Heute stellt sich eine sehr ähnliche Frage erneut – allerdings auf einer deutlich höheren Architekturebene. Es geht nicht mehr darum, welcher Browser standardmäßig geöffnet wird oder welche Suchmaschine voreingestellt ist. Entscheidend wird künftig sein, welcher KI-Agent den tiefsten Zugriff auf Betriebssystem, Apps, Kontextinformationen und Systemfunktionen erhält. Ein Plattform-Agent wie Siri AI könnte dadurch Fähigkeiten besitzen, die konkurrierenden KI-Systemen ohne vergleichbaren Plattformzugriff nicht oder nur eingeschränkt zur Verfügung stehen.

Wettbewerb verschiebt sich auf die Kontextschicht

Genau an diesem Punkt setzt der Digital Markets Act an. Er verpflichtet Gatekeeper dazu, faire Zugangsbedingungen zu schaffen, bestimmte Formen der Selbstbevorzugung zu vermeiden und Interoperabilität zu ermöglichen. Während sich diese Anforderungen bislang vor allem auf App Stores, Browser oder Zahlungsdienste bezogen, rückt mit KI-Agenten eine neue Ebene in den Mittelpunkt: die Kontext- und Aktionsschicht moderner Betriebssysteme.

Damit verändert sich auch die wettbewerbsrechtliche Fragestellung. Es geht künftig nicht mehr allein um den Zugang zu Apps oder Diensten, sondern um den Zugang zu persönlichem Kontext, Systemfunktionen und der Fähigkeit, eigenständig Aktionen im Namen der Benutzer:innen auszuführen. Genau diese Entwicklung macht Siri AI und Apple Intelligence zu einem möglichen Präzedenzfall für die nächste Generation digitaler Plattformen.

Interoperabilität wird zur KI-Frage

Interoperabilität beschreibt grundsätzlich die Fähigkeit unterschiedlicher Systeme, miteinander zusammenzuarbeiten. Im Kontext des Digital Markets Act geht es jedoch um weit mehr als den Austausch von Dateien oder Nachrichten. Entscheidend ist die Frage, ob Drittanbieter unter fairen Bedingungen auf dieselben Plattformfunktionen zugreifen können, die ein Gatekeeper für seine eigenen Dienste nutzt.

KI-Agenten benötigen mehr als einzelne Schnittstellen

Bei klassischen Anwendungen lässt sich dieser Zugang vergleichsweise einfach definieren. Eine App benötigt beispielsweise Zugriff auf die Kamera, Kontakte, den Kalender oder das Benachrichtigungssystem. Moderne KI-Agenten arbeiten jedoch grundlegend anders. Sie benötigen nicht nur einzelne Programmierschnittstellen, sondern müssen verschiedene Informationsquellen miteinander verbinden. Erst das Zusammenspiel von persönlichem Kontext, Berechtigungen, App-Funktionen und Systemzuständen ermöglicht es ihnen, Situationen zu verstehen und daraus eigenständig Aktionen abzuleiten.

Kontext wird zur eigentlichen Ressource

Genau hier entsteht die regulatorische Herausforderung. Wenn Siri AI auf persönliche Informationen, App Intents, Bildschirmkontext oder Systemfunktionen zugreifen kann, stellt sich zwangsläufig die Frage, ob konkurrierende KI-Agenten einen vergleichbaren Zugang erhalten müssen. Gleichzeitig handelt es sich dabei um besonders schützenswerte Informationen, deren Verarbeitung hohen Anforderungen an Datenschutz und Sicherheit unterliegt.

Damit verändert sich auch die Bedeutung von Interoperabilität. Sie beschreibt künftig nicht mehr nur die technische Kompatibilität zwischen Anwendungen, sondern den fairen und zugleich sicheren Zugang zur Kontext- und Aktionsschicht moderner Betriebssysteme. Genau diese Balance zwischen Wettbewerb, Datenschutz und Plattformkontrolle gehört zu den größten regulatorischen Herausforderungen der kommenden KI-Generation.

Self-Preferencing als Kern des Konflikts

Ein zentraler Begriff des Digital Markets Act ist Self-Preferencing, also die Selbstbevorzugung eigener Dienste. Gemeint ist eine Situation, in der ein Plattformbetreiber seine eigenen Angebote gegenüber vergleichbaren Diensten Dritter bevorzugt. Dies kann beispielsweise durch eine prominente Platzierung, tiefere Systemintegration, leistungsfähigere Schnittstellen oder exklusive Zugriffsrechte auf Plattformfunktionen und Daten geschehen.

Von der Benutzeroberfläche zur Agentenarchitektur

Im Zeitalter klassischer Software bezog sich diese Diskussion vor allem auf Anwendungen wie Browser, Suchmaschinen oder App Stores. Mit dem Aufkommen intelligenter KI-Agenten verschiebt sich der Schwerpunkt jedoch auf eine deutlich grundlegendere Ebene. Der Wettbewerb entscheidet sich künftig nicht mehr allein an der Benutzeroberfläche, sondern an der Frage, welcher Agent den umfassendsten Zugriff auf Kontext, Systemfunktionen und Handlungsmöglichkeiten erhält.

Kann Apple Siri AI beispielsweise tiefer in iOS integrieren als konkurrierende KI-Agenten, verfügt der eigene Plattform-Agent über einen strukturellen Vorteil. Er kann mehr Kontext verstehen, mehr Systemfunktionen nutzen und komplexere Aktionen innerhalb des Betriebssystems ausführen als externe Lösungen mit eingeschränkten Zugriffsrechten.

Wettbewerb, Sicherheit und Datenschutz

Aus Sicht der Europäischen Union könnte genau darin eine unzulässige Selbstbevorzugung liegen, weil konkurrierende Anbieter ihre KI-Agenten unter vergleichbaren Bedingungen nicht entwickeln könnten. Apple argumentiert dagegen, dass ein umfassender Zugriff auf persönlichen Kontext, App-Intents und Systemfunktionen erhebliche Anforderungen an Datenschutz und Sicherheit stellt. Je leistungsfähiger ein KI-Agent wird, desto größer sind zugleich die Risiken durch Fehlkonfigurationen, Datenabfluss oder missbräuchliche Automatisierung.

Genau hier prallen zwei berechtigte Interessen aufeinander. Die Europäische Union fordert einen fairen Wettbewerb und gleichberechtigten Zugang zu zentralen Plattformfunktionen. Apple sieht dagegen die enge Integration seines Plattform-Agenten als Voraussetzung dafür, Datenschutz, Systemsicherheit und ein konsistentes Benutzererlebnis gewährleisten zu können.

Damit entwickelt sich Self-Preferencing von einer klassischen Wettbewerbsfrage zu einer grundlegenden Architekturfrage moderner KI-Plattformen. Es geht nicht mehr allein darum, welcher Dienst bevorzugt dargestellt wird, sondern darum, welcher KI-Agent den tiefsten Zugang zum Kontext erhält – und damit die größte Fähigkeit besitzt, Situationen zu verstehen und eigenständig zu handeln.

Warum Apple anders argumentiert als die EU

Dass Apple und die Europäische Union den Digital Markets Act unterschiedlich bewerten, liegt nicht daran, dass sie gegensätzliche Ziele verfolgen. Beide Seiten möchten Innovation ermöglichen und gleichzeitig die Interessen der Benutzer:innen schützen. Der Unterschied besteht vielmehr in der Perspektive, aus der sie auf moderne KI-Agenten blicken.

Apple priorisiert Plattformintegrität und Datenschutz

Apple betrachtet Siri AI als integralen Bestandteil seiner Plattformarchitektur. Ein Plattform-Agent mit tiefem Zugriff auf Betriebssystem, persönlichen Kontext und App-Funktionen verarbeitet zwangsläufig besonders schützenswerte Informationen. Aus Sicht des Unternehmens setzt dies voraus, dass Hard- und Software eng miteinander verzahnt bleiben und sicherheitskritische Funktionen kontrolliert bereitgestellt werden. Apple argumentiert deshalb, dass ein weitreichender Plattformzugriff nur dann verantwortbar ist, wenn Datenschutz, Systemsicherheit und Integrität der Plattform jederzeit gewährleistet werden können.

Die EU priorisiert Wettbewerb und Interoperabilität

Die Europäische Union verfolgt dagegen einen anderen Schwerpunkt. Der Digital Markets Act soll nicht verhindern, dass Apple innovative KI-Funktionen entwickelt oder tief in seine Plattform integriert. Ziel ist vielmehr sicherzustellen, dass marktmächtige Plattformbetreiber ihre Stellung nicht dazu nutzen, eigene Dienste dauerhaft gegenüber konkurrierenden Angeboten zu bevorzugen. Aus Sicht der Europäischen Kommission sind Interoperabilität und ein fairer Zugang zu zentralen Plattformfunktionen wesentliche Voraussetzungen für funktionierenden Wettbewerb und langfristige Innovation.

Zwei berechtigte Ziele treffen aufeinander

Gerade bei KI-Agenten geraten diese beiden Zielsetzungen erstmals unmittelbar miteinander in Konflikt. Ein Plattform-Agent benötigt möglichst umfassenden Zugriff auf Kontext, Systemfunktionen und persönliche Informationen, um sein volles Potenzial entfalten zu können. Genau dieser privilegierte Zugriff kann aus wettbewerbsrechtlicher Sicht jedoch zugleich einen strukturellen Vorteil gegenüber konkurrierenden KI-Agenten darstellen.

Damit verschiebt sich die Diskussion weit über klassische Fragen des Plattformzugangs hinaus. Es geht nicht mehr allein um Apps, Browser oder Zahlungsdienste, sondern um die grundlegende Architektur zukünftiger KI-Plattformen. Der eigentliche Zielkonflikt lautet daher: Wie lässt sich ein fairer Wettbewerb zwischen KI-Agenten ermöglichen, ohne Datenschutz, Systemsicherheit und Plattformintegrität zu gefährden? Genau diese Frage macht Apple Intelligence und Siri AI zu einem der ersten großen regulatorischen Testfälle für die nächste Generation künstlicher Intelligenz.

Siri AI als Präzedenzfall für KI-Agenten

Mit Apple Intelligence und Siri AI könnte erstmals sichtbar werden, welche regulatorischen Fragen sich künftig für nahezu alle leistungsfähigen KI-Agenten stellen. Dabei geht es längst nicht mehr nur darum, welche Anwendungen auf einer Plattform installiert werden dürfen. Entscheidend wird vielmehr, welche KI-Systeme den persönlichen oder organisatorischen Kontext verstehen, auf welche Plattformfunktionen sie zugreifen und welche Aktionen sie eigenständig im Namen von Benutzer:innen ausführen dürfen.

Von der App-Plattform zur Kontextplattform

Damit verschiebt sich die regulatorische Diskussion auf eine neue Ebene. Der Zugang zu einer Plattform bedeutet künftig nicht mehr nur den Zugang zu einem App Store oder einzelnen Programmierschnittstellen. Er umfasst den Zugang zu einer intelligenten Kontext- und Aktionsschicht, in der persönliche Informationen, Anwendungen, Systemfunktionen und Automatisierungen zusammengeführt werden. Wer diese Schicht kontrolliert, gestaltet maßgeblich die zukünftige Interaktion zwischen Mensch und künstlicher Intelligenz.

Apple steht mit Siri AI derzeit besonders im Fokus, weil das Unternehmen als eines der ersten den Anspruch verfolgt, einen tief in das Betriebssystem integrierten Plattform-Agenten bereitzustellen. Die grundlegenden Fragestellungen reichen jedoch weit über Apple hinaus. Mit zunehmender Verbreitung von KI-Agenten werden sich vergleichbare Diskussionen auch bei Unternehmensplattformen und cloudbasierten Ökosystemen stellen.

Eine Herausforderung für die Enterprise-IT

Für Unternehmen, Administrator:innen und IT-Architekt:innen ist dies weit mehr als eine juristische oder regulatorische Fragestellung. Sobald KI-Agenten in Microsoft 365, CRM-Systeme, ERP-Plattformen, Sicherheitslösungen oder andere geschäftskritische Anwendungen integriert werden, müssen Organisationen nachvollziehen können, welcher Agent auf welche Informationen zugreifen darf, wer Aktionen autorisiert, wie Berechtigungen durchgesetzt werden und wie sich Verantwortlichkeiten eindeutig nachvollziehen lassen.

Damit entwickelt sich die Regulierung von KI-Agenten zu einem grundlegenden Architekturthema moderner IT-Landschaften. Fragen nach Governance, Identität, Berechtigungen und Interoperabilität werden künftig ebenso entscheidend sein wie die Leistungsfähigkeit der zugrunde liegenden Sprachmodelle. Genau deshalb könnte Siri AI zum Präzedenzfall für eine Entwicklung werden, die weit über Apple hinaus die nächste Generation intelligenter Plattformen prägen wird.

Warum der DMA über Apple hinaus relevant ist

Die aktuelle Diskussion wirkt auf den ersten Blick wie ein Konflikt zwischen Apple und der Europäischen Union. Tatsächlich berührt sie jedoch eine wesentlich grundlegendere Fragestellung der kommenden KI-Ära: Werden leistungsfähige KI-Agenten als geschlossene Bestandteile einzelner Plattformen entstehen, oder entwickeln sie sich zu interoperablen Systemen, die sicher und kontrolliert über Plattform- und Anbietergrenzen hinweg zusammenarbeiten können?

Eine Herausforderung für die gesamte IT-Branche

Diese Frage betrifft längst nicht nur Apple. Auch Microsoft, Google, Amazon, Salesforce, SAP, ServiceNow und zahlreiche weitere Plattformanbieter integrieren KI-Agenten zunehmend tief in ihre Produkte und Dienste. Je stärker diese Agenten mit Unternehmenswissen, persönlichen Informationen, Geschäftsprozessen und Systemfunktionen verbunden werden, desto wichtiger werden offene Schnittstellen, nachvollziehbare Berechtigungsmodelle und kontrollierte Formen der Interoperabilität.

Damit stehen künftig nahezu alle großen Plattformbetreiber vor vergleichbaren Herausforderungen. Sie müssen einerseits leistungsfähige KI-Agenten entwickeln, andererseits aber auch sicherstellen, dass Datenschutz, Sicherheit, Wettbewerb und regulatorische Anforderungen miteinander vereinbar bleiben.

Der eigentliche Wettbewerb entsteht um den Kontext

Der Digital Markets Act entwickelt sich damit von einem Regelwerk für App Stores und digitale Plattformen zu einem frühen Ordnungsrahmen für die nächste Generation intelligenter Plattformarchitekturen. Im Mittelpunkt steht dabei nicht mehr allein die Frage, welche Anwendung installiert oder welcher Dienst bevorzugt dargestellt wird. Entscheidend wird vielmehr, welcher KI-Agent auf welchen Kontext zugreifen darf, welche Werkzeuge ihm zur Verfügung stehen und unter welchen Bedingungen er eigenständig handeln kann.

Genau darin liegt die eigentliche Bedeutung der aktuellen Diskussion um Siri AI. Sie macht sichtbar, dass sich der Wettbewerb der Zukunft nicht allein über leistungsfähigere Sprachmodelle oder neue Funktionen entscheidet, sondern über den kontrollierten Zugang zu Kontext, Werkzeugen und Agentenfähigkeiten. Diese Entwicklung führt unmittelbar zur nächsten Evolutionsstufe künstlicher Intelligenz: der Zusammenarbeit spezialisierter KI-Agenten innerhalb vernetzter Multi-Agent-Systeme.

Zwischen Innovation, Sicherheit und Wettbewerb

Die eigentliche Herausforderung besteht deshalb nicht darin, zu entscheiden, ob Apple oder die Europäische Union die überzeugenderen Argumente vorbringen. Beide Seiten adressieren reale und berechtigte Fragestellungen. Apple muss erklären, wie sich ein tief in die Plattform integrierter KI-Agent sicher, datenschutzkonform und kontrollierbar betreiben lässt. Die Europäische Union muss zugleich sicherstellen, dass Sicherheits- und Datenschutzargumente nicht dazu führen, marktbeherrschende Plattformen dauerhaft gegenüber konkurrierenden KI-Systemen abzuschotten.

Der Balanceakt der nächsten KI-Generation

Für die Zukunft moderner KI-Agenten entsteht daraus ein anspruchsvoller Zielkonflikt. Plattformen müssen leistungsfähige, vertrauenswürdige und sichere KI-Funktionen bereitstellen. Gleichzeitig dürfen sie ihre eigenen Agenten nicht so privilegieren, dass alternative Anbieter trotz vergleichbarer technischer Möglichkeiten keine gleichwertige Nutzererfahrung entwickeln können.

Gerade dieser Balanceakt wird die Architektur zukünftiger Plattformen maßgeblich prägen. KI-Agenten benötigen einen umfassenden Kontext, um sinnvoll handeln zu können. Gleichzeitig müssen Plattformbetreiber jederzeit nachvollziehen und kontrollieren können, auf welche Informationen zugegriffen wird, welche Aktionen ausgeführt werden dürfen und wie sich Datenschutz, Sicherheit und Wettbewerb miteinander vereinbaren lassen.

Mehr als ein Streit um Siri AI

Genau deshalb steht Siri AI stellvertretend für eine Entwicklung, die weit über Apple hinausreicht. Die eigentliche Frage lautet nicht, welcher Sprachassistent künftig die besten Antworten liefert. Entscheidend wird vielmehr sein, wie unterschiedliche KI-Agenten sicher zusammenarbeiten, auf welchen Kontext sie zugreifen dürfen und unter welchen Regeln diese Zusammenarbeit erfolgt.

Damit bildet die aktuelle DMA-Diskussion zugleich den Ausgangspunkt für die nächste Evolutionsstufe künstlicher Intelligenz. Denn sobald Plattform-, Wissens- und Fachagenten miteinander kooperieren, rückt nicht mehr der einzelne KI-Agent in den Mittelpunkt, sondern das Zusammenspiel vieler spezialisierter Agenten innerhalb einer gemeinsamen Architektur. Genau dieser Entwicklung widmet sich das folgende Kapitel.

Exkurs: Innovation oder Regulierung? Warum die EU oft missverstanden wird

Im Zusammenhang mit Apple Intelligence wird derzeit häufig der Eindruck vermittelt, die Europäische Union verhindere neue KI-Funktionen und bremse dadurch technische Innovationen aus. In sozialen Netzwerken und Diskussionsforen wird dies oft auf eine einfache Formel reduziert: „Apple würde die Funktionen gerne bereitstellen – aber die EU verbietet sie.“ Diese Sichtweise greift jedoch deutlich zu kurz.

Tatsächlich verfolgt die Europäische Union mit Regelwerken wie dem Digital Markets Act oder dem Digital Services Act ein anderes Ziel. Im Mittelpunkt steht nicht die Verhinderung neuer Technologien, sondern die Frage, unter welchen Rahmenbedingungen diese Technologien eingeführt werden. Gerade bei tief integrierten KI-Agenten sollen Wettbewerb, Datenschutz, Transparenz und die Wahlfreiheit der Benutzer:innen langfristig gewährleistet werden.

Regulierung bedeutet nicht zwangsläufig Innovationshemmnis

Dass regulatorische Vorgaben zunächst zu Verzögerungen oder zusätzlichen Anforderungen führen können, ist unbestritten. Gleichzeitig haben europäische Vorgaben in der Vergangenheit aber auch mehrfach dazu beigetragen, Benutzer:innen mehr Kontrolle über digitale Plattformen zu geben.

Ein aktuelles Beispiel liefert Microsoft mit den KI-Funktionen von Windows 11. Während zahlreiche Copilot-Funktionen in anderen Regionen unmittelbar aktiviert werden, gelten innerhalb des Europäischen Wirtschaftsraums häufig strengere Anforderungen. Funktionen werden teilweise erst nach einer ausdrücklichen Zustimmung der Benutzer:innen (Opt-In) aktiviert oder in angepasster Form bereitgestellt. Dadurch erhalten Anwender:innen mehr Transparenz darüber, welche KI-Funktionen genutzt werden und welche Daten dabei verarbeitet werden.

Auch die jüngste Verlängerung des erweiterten Supports für Windows 10 bis Oktober 2027 zeigt, dass regulatorische Anforderungen nicht ausschließlich als Einschränkung verstanden werden sollten. Die Diskussionen innerhalb Europas haben maßgeblich dazu beigetragen, den Übergang auf neue Plattformen stärker an den tatsächlichen Bedürfnissen von Unternehmen und Benutzer:innen auszurichten und mehr Planungssicherheit zu schaffen.

Zwischen Innovationsfreiheit und Verantwortung

Gerade bei KI-Agenten wird dieser Zielkonflikt besonders deutlich. Einerseits wünschen sich Benutzer:innen leistungsfähige Assistenten, die möglichst tief in Betriebssysteme und Anwendungen integriert sind. Andererseits wächst mit jeder zusätzlichen Berechtigung auch die Verantwortung für Datenschutz, Informationssicherheit und fairen Wettbewerb.

Aus Sicht vieler Anwender:innen entsteht dabei häufig ein anderes Bild. Wenn neue KI-Funktionen zunächst in den USA oder anderen Regionen verfügbar sind, während sie in Europa später oder in angepasster Form eingeführt werden, entsteht schnell der Eindruck, die Europäische Union bremse technische Innovation aus. In sozialen Netzwerken wird dies nicht selten auf die einfache Formel reduziert: „Alle anderen haben die Funktion schon – nur wir in Europa müssen wieder warten.“ Diese Wahrnehmung ist verständlich, greift jedoch häufig zu kurz, weil sie die regulatorischen Hintergründe und langfristigen Auswirkungen kaum berücksichtigt.

Deshalb sollte die aktuelle Diskussion nicht auf die Frage reduziert werden, ob die EU Innovation verhindert oder Apple Innovation beschleunigt. Tatsächlich verfolgen beide Seiten legitime Ziele, setzen jedoch unterschiedliche Schwerpunkte. Apple konzentriert sich auf eine möglichst leistungsfähige und tief integrierte Plattformarchitektur. Die Europäische Union möchte sicherstellen, dass sich diese Entwicklung nicht zulasten von Wettbewerb, Wahlfreiheit, Transparenz und Datenschutz vollzieht.

Für Unternehmen und IT-Verantwortliche ist genau diese Balance entscheidend. Kurzfristig mag es unbefriedigend erscheinen, wenn neue Funktionen später verfügbar werden. Langfristig wird der Erfolg von KI-Agenten jedoch nicht allein davon abhängen, wie schnell Innovationen eingeführt werden, sondern ob sie sich vertrauenswürdig, nachvollziehbar und sicher in bestehende IT-Landschaften integrieren lassen. Gerade im Enterprise-Umfeld sind diese Eigenschaften häufig wichtiger als ein möglichst früher Markteintritt.

Die Zukunft gehört vernetzten KI-Agenten

Die bisherigen Kapitel haben gezeigt, dass moderne KI-Agenten ihre Leistungsfähigkeit nicht allein aus großen Sprachmodellen beziehen. Entscheidend ist vielmehr der Kontext, auf den sie zugreifen können. Siri AI erschließt den persönlichen Nutzungskontext eines Geräts. Microsoft 365 Copilot nutzt den Wissenskontext einer Organisation. Hinzu kommen spezialisierte Fachagenten, die beispielsweise IT-Sicherheit, Softwareentwicklung, Netzwerkbetrieb, Kundenservice oder ERP-Prozesse unterstützen.

Gerade diese Spezialisierung macht deutlich, dass die Zukunft künstlicher Intelligenz nicht in einem universellen Assistenten liegen wird, der jede Aufgabe gleichermaßen gut beherrscht. Die Anforderungen an Kontext, Berechtigungen, Datenquellen und Fachlogik unterscheiden sich dafür zu stark. Ein Geräte-Agent muss den aktuellen Nutzungskontext verstehen. Ein Wissens-Agent benötigt Zugriff auf organisatorische Zusammenhänge. Ein Security-Agent bewertet Risiken und Bedrohungen. Ein ERP-Agent kennt Geschäftsprozesse und betriebswirtschaftliche Regeln.

Von spezialisierten Agenten zu Agentennetzwerken

Die nächste Evolutionsstufe künstlicher Intelligenz besteht deshalb nicht darin, immer größere Einzelmodelle zu entwickeln. Stattdessen entstehen zunehmend vernetzte Agentenarchitekturen, in denen mehrere spezialisierte KI-Agenten ihre jeweiligen Stärken miteinander verbinden. Jeder Agent bringt dabei einen eigenen Kontext, spezifische Werkzeuge und klar definierte Fähigkeiten ein. Erst ihre koordinierte Zusammenarbeit ermöglicht Lösungen, die weit über die Möglichkeiten eines einzelnen Assistenten hinausgehen.

Damit schließt sich zugleich der Bogen zu den vorherigen Kapiteln. Die Frage lautet künftig nicht mehr, ob ein Plattform-Agent wie Siri AI oder ein Wissens-Agent wie Microsoft 365 Copilot leistungsfähiger ist. Entscheidend wird vielmehr, wie beide Agenten zusammenarbeiten, ihren jeweiligen Kontext austauschen und sich gegenseitig ergänzen können.

Multi-Agent-Systeme als nächster Architekturschritt

Die Entwicklung hin zu Multi-Agent-Systemen folgt einem bekannten Muster der IT-Geschichte. Über viele Jahre wurden monolithische Anwendungen zunehmend durch spezialisierte Dienste, Microservices und Cloud-Plattformen ersetzt. Statt eine einzelne Anwendung mit allen Funktionen auszustatten, entstanden Architekturen, in denen spezialisierte Komponenten klar definierte Aufgaben übernehmen und kontrolliert miteinander kommunizieren. Eine vergleichbare Entwicklung zeichnet sich nun auch bei künstlicher Intelligenz ab.

Spezialisierung statt Universalagent

Ein Multi-Agent-System besteht aus mehreren spezialisierten KI-Agenten, die gemeinsam an einer Aufgabe arbeiten. Jeder Agent übernimmt dabei einen klar abgegrenzten Verantwortungsbereich und bringt seinen eigenen Kontext, seine Werkzeuge und seine fachliche Expertise ein. Ein übergeordneter Orchestrator analysiert die Anfrage, zerlegt sie in Teilaufgaben, wählt geeignete Agenten aus und führt deren Ergebnisse zu einer konsistenten Gesamtlösung zusammen.

Der eigentliche Mehrwert entsteht dabei nicht durch einen einzelnen besonders leistungsfähigen Agenten, sondern durch die koordinierte Zusammenarbeit mehrerer spezialisierter Systeme. Ein Plattform-Agent liefert den situativen Nutzungskontext, ein Wissens-Agent erschließt Organisationswissen und Fachagenten steuern domänenspezifisches Expertenwissen bei. Erst aus diesem Zusammenspiel entsteht ein Ergebnis, das die Fähigkeiten eines einzelnen KI-Agenten deutlich übertrifft.

KI folgt der Architektur moderner Unternehmen

Dieses Prinzip passt unmittelbar zur Entwicklung heutiger Unternehmens-IT. Bereits heute bestehen digitale Geschäftsprozesse aus zahlreichen spezialisierten Plattformen. Microsoft 365, CRM- und ERP-Systeme, Sicherheitslösungen, Ticket-Systeme, Entwicklungsplattformen und Netzwerkmanagement arbeiten nicht isoliert, sondern bilden gemeinsam die digitale Infrastruktur einer Organisation.

KI-Agenten werden diese Architektur nicht ersetzen, sondern sie widerspiegeln. Jeder Agent repräsentiert einen bestimmten Verantwortungsbereich und nutzt ausschließlich den Kontext und die Berechtigungen, die für seine Aufgabe erforderlich sind. Dadurch entsteht eine skalierbare Agentenarchitektur, die sich an bestehenden Geschäftsprozessen orientiert und diese intelligent erweitert, anstatt sie durch einen universellen Assistenten zu ersetzen.

Geräte-Agenten liefern situativen Kontext

Geräte-Agenten bilden innerhalb eines Multi-Agent-Systems die erste Kontextebene. Sie entsprechen den zuvor beschriebenen Plattform-Agenten und arbeiten besonders nah an den Benutzer:innen. Systeme wie Siri AI oder Gemini auf Android kennen den aktuellen Gerätezustand, geöffnete Anwendungen, persönliche Termine, Nachrichten, Standortinformationen sowie weitere situative Hinweise. Dadurch können sie den unmittelbaren Nutzungskontext einer Person erfassen und daraus passende Handlungsvorschläge ableiten.

Die erste Instanz für persönlichen Kontext

Die Stärke eines Geräte-Agenten liegt in der Frage: „Was passiert gerade bei dieser Person, auf diesem Gerät, in dieser Situation?“ Er erkennt beispielsweise, dass ein Meeting unmittelbar bevorsteht, eine Präsentation zuletzt bearbeitet wurde oder eine Navigations-App bereits geöffnet ist. Dieser situative Kontext bildet häufig den Ausgangspunkt einer komplexeren Agentenkette.

Gerade in Multi-Agent-Systemen übernimmt der Geräte-Agent deshalb eine wichtige Rolle. Er liefert den persönlichen Kontext, auf dessen Grundlage weitere spezialisierte Agenten ihre Arbeit beginnen können. Ein Wissens-Agent ergänzt anschließend den organisatorischen Kontext, während Fachagenten domänenspezifisches Expertenwissen oder spezialisierte Funktionen beisteuern.

Der Kontext endet am Geräterand

Gleichzeitig besitzt ein Geräte-Agent bewusst nur einen begrenzten Wissensraum. Er kennt nicht automatisch den aktuellen Projektstatus eines Unternehmens, die Zusammenhänge eines ERP-Prozesses oder die Sicherheitslage einer IT-Infrastruktur. Seine Aufgabe besteht vielmehr darin, den persönlichen Nutzungskontext bereitzustellen und diesen – unter Berücksichtigung von Berechtigungen und Datenschutz – an andere spezialisierte Agenten weiterzugeben.

Gerade diese klare Aufgabenteilung macht Multi-Agent-Systeme so leistungsfähig. Kein einzelner Agent muss sämtliche Informationen kennen. Stattdessen bringt jeder Agent genau den Kontext ein, für den er konzipiert wurde.

Wissens-Agenten erschließen Organisationskontext

Während Geräte-Agenten den persönlichen Nutzungskontext bereitstellen, erschließen Wissens-Agenten den Informations- und Arbeitskontext einer Organisation. Systeme wie Microsoft 365 Copilot verbinden Dokumente, E-Mails, Besprechungen, Chats, Aufgaben, Berechtigungen und semantische Beziehungen zu einem zusammenhängenden Wissensraum. Ihre Aufgabe besteht nicht darin, ein Endgerät zu steuern, sondern organisatorisches Wissen verständlich, auffindbar und für konkrete Arbeitsprozesse nutzbar zu machen.

Der organisatorische Blick auf eine Aufgabe

Gerade in Unternehmen entsteht Wissen selten an einem einzigen Ort. Informationen verteilen sich auf SharePoint, OneDrive, Outlook, Microsoft Teams, Projektplattformen und zahlreiche Fachanwendungen. Für Menschen ist es oft zeitaufwendig, diese Zusammenhänge vollständig zu erfassen. Ein Wissens-Agent kann diese verteilten Informationen dagegen in Beziehung setzen und daraus einen konsistenten organisatorischen Kontext ableiten.

Damit beantwortet er eine grundlegend andere Frage als ein Geräte-Agent. Während dieser fragt: „Was passiert gerade auf dem Gerät dieser Person?“, lautet die Fragestellung eines Wissens-Agenten: „Was weiß die Organisation über diese Aufgabe, dieses Projekt oder diesen Kunden?“

Die zweite Kontextebene im Agentennetzwerk

Innerhalb eines Multi-Agent-Systems übernimmt der Wissens-Agent damit die zweite Kontextebene. Er ergänzt den persönlichen Nutzungskontext des Geräte-Agenten um organisatorisches Wissen, historische Zusammenhänge, Berechtigungen und kollaborative Arbeitsinformationen. Erst durch diese Kombination entsteht ein umfassendes Lagebild, auf dessen Grundlage weitere spezialisierte Fachagenten fundierte Entscheidungen treffen oder konkrete Aktionen vorbereiten können.

Gerade diese Arbeitsteilung zeigt, weshalb Multi-Agent-Systeme leistungsfähiger sind als einzelne universelle Assistenten. Der Geräte-Agent versteht die Situation, der Wissens-Agent versteht die Organisation – und gemeinsam schaffen sie die Grundlage für intelligente Zusammenarbeit.

Fachagenten übernehmen spezialisierte Aufgaben

Neben Geräte- und Wissens-Agenten gewinnen zunehmend spezialisierte Fachagenten an Bedeutung. Während Plattform-Agenten den persönlichen Nutzungskontext und Wissens-Agenten den organisatorischen Kontext erschließen, bringen Fachagenten tiefes Domänenwissen in ein Multi-Agent-System ein. Sie sind auf klar abgegrenzte Aufgabenbereiche spezialisiert und verfügen über die fachliche Logik, Werkzeuge und Regeln ihres jeweiligen Einsatzgebiets.

Expertenwissen für komplexe Geschäftsprozesse

Typische Beispiele sind Security-Agenten, Netzwerk-Agenten, ERP-Agenten, CRM-Agenten, Coding-Agenten oder Finance-Agenten. Ihre Stärke liegt nicht im allgemeinen Sprachverständnis, sondern in der Interpretation komplexer fachlicher Zusammenhänge.

Ein Security-Agent kann Sicherheitsereignisse korrelieren, Angriffsmuster bewerten und Risiken priorisieren. Ein Netzwerk-Agent analysiert Telemetriedaten, erkennt Konfigurationsfehler oder unterstützt bei der Ursachenanalyse von Performance-Problemen. Ein ERP-Agent versteht Geschäftsprozesse, interpretiert Bestellungen, Rechnungen oder Lieferketten und berücksichtigt dabei betriebswirtschaftliche Regeln und Abhängigkeiten.

Fachlogik wird zum Wettbewerbsfaktor

Gerade für Unternehmen gewinnt diese Spezialisierung zunehmend an Bedeutung. Je tiefer KI-Agenten in operative Geschäftsprozesse eingebunden werden, desto wichtiger werden Fachlogik, Berechtigungen, Nachvollziehbarkeit und Prozesssicherheit. Ein universeller Assistent kann allgemeine Informationen bereitstellen. Die eigentliche Wertschöpfung entsteht jedoch dort, wo spezialisierte Fachagenten ihre Domänenexpertise mit dem persönlichen und organisatorischen Kontext anderer Agenten verbinden.

Damit vervollständigen Fachagenten die Architektur moderner Multi-Agent-Systeme. Geräte-Agenten liefern den situativen Nutzungskontext, Wissens-Agenten erschließen den organisatorischen Kontext und Fachagenten ergänzen das spezialisierte Expertenwissen. Erst das koordinierte Zusammenspiel dieser drei Agentenklassen ermöglicht intelligente Unterstützung in realen Unternehmensprozessen.

Zusammenarbeit braucht Orchestrierung

Sobald mehrere spezialisierte KI-Agenten gemeinsam an einer Aufgabe arbeiten, entsteht eine neue architektonische Herausforderung: Wer entscheidet eigentlich, welcher Agent welche Teilaufgabe übernimmt? Genau an dieser Stelle kommt die Orchestrierung ins Spiel.

Der Orchestrator als Koordinator

Ein Orchestrator ist selbst in der Regel kein fachlicher Spezialist. Seine Aufgabe besteht vielmehr darin, Anfragen zu analysieren, geeignete Teilaufgaben abzuleiten und diese an die jeweils passenden Agenten zu delegieren. Anschließend führt er die Ergebnisse wieder zusammen, erkennt mögliche Widersprüche und erstellt daraus eine konsistente Antwort oder einen ausführbaren Handlungsvorschlag.

Die eigentliche Intelligenz des Orchestrators liegt somit weniger im eigenen Fachwissen als in seiner Fähigkeit, die richtigen Agenten zur richtigen Zeit mit den richtigen Informationen zusammenzubringen.

Ein Beispiel aus dem IT-Betrieb

Wie relevant dieses Prinzip ist, zeigt ein typisches Szenario aus dem IT-Betrieb. Mehrere Benutzer:innen melden, dass die Anmeldung an einer geschäftskritischen Fachanwendung ungewöhnlich lange dauert.

Ein Geräte-Agent könnte zunächst lokale Informationen wie Gerätezustand, Netzwerkverbindung oder Client-Konfiguration erfassen. Ein Wissens-Agent durchsucht bekannte Incidents, Change-Protokolle, Dokumentationen und frühere Störungen nach vergleichbaren Mustern. Parallel analysiert ein Netzwerk-Agent Telemetriedaten, Latenzen und Routing-Informationen, während ein Security-Agent prüft, ob ungewöhnliche Anmeldeversuche, Richtlinienänderungen oder Sicherheitsmechanismen die Verzögerungen verursachen.

Erst der Orchestrator führt diese unterschiedlichen Perspektiven zu einem gemeinsamen Lagebild zusammen. Anstatt isolierte Einzelinformationen bereitzustellen, entsteht eine priorisierte Ursachenanalyse mit konkreten Handlungsempfehlungen für den IT-Betrieb.

Koordination wird zur neuen Kernkompetenz

Gerade darin unterscheidet sich ein Multi-Agent-System von einem einzelnen universellen Assistenten. Die Leistungsfähigkeit entsteht nicht dadurch, dass ein Agent sämtliche Aufgaben selbst übernimmt, sondern durch die koordinierte Zusammenarbeit spezialisierter Agenten. Der Orchestrator wird damit zur zentralen Instanz, welche die unterschiedlichen Kontextwelten miteinander verbindet und daraus eine konsistente, nachvollziehbare und handlungsorientierte Lösung erzeugt.

Interoperabilität wird zur Voraussetzung

Die Zusammenarbeit spezialisierter KI-Agenten setzt voraus, dass sie Informationen kontrolliert austauschen und Aufgaben sicher aneinander übergeben können. Interoperabilität wird damit zu einer zentralen Voraussetzung moderner Agentenarchitekturen. Agenten müssen Anfragen, Ergebnisse und Kontextinformationen standardisiert übermitteln können, ohne dabei ihre jeweiligen Sicherheits- und Berechtigungsgrenzen zu überschreiten.

Interoperabilität bedeutet nicht uneingeschränkten Zugriff

Bereits im Zusammenhang mit dem Digital Markets Act wurde deutlich, dass Interoperabilität weit mehr bedeutet als die Bereitstellung technischer Schnittstellen. Dasselbe gilt für Multi-Agent-Systeme. Zusammenarbeit darf nicht bedeuten, dass jeder Agent uneingeschränkten Zugriff auf sämtliche Daten, Werkzeuge oder Plattformfunktionen erhält.

Gerade im Unternehmensumfeld müssen Datenräume, Identitäten, Rollen und Sicherheitsrichtlinien klar voneinander getrennt bleiben. Ein Geräte-Agent benötigt beispielsweise keinen vollständigen Zugriff auf ERP-Daten, während ein Finance-Agent keine Berechtigung besitzen sollte, persönliche Nachrichten oder Systemfunktionen eines Smartphones auszuwerten. Jeder Agent darf ausschließlich den Kontext nutzen, der für seine konkrete Aufgabe erforderlich und autorisiert ist.

Zero Trust wird zum Architekturprinzip für KI-Agenten

Damit überträgt sich ein bekanntes Sicherheitskonzept unmittelbar auf die nächste Generation künstlicher Intelligenz. Wie Benutzer:innen, Geräte oder Anwendungen müssen künftig auch KI-Agenten kontinuierlich authentifiziert, autorisiert und überwacht werden. Vertrauen entsteht nicht aufgrund der Herkunft oder Marke eines Agenten, sondern durch überprüfbare Identitäten, klar definierte Berechtigungen, vollständige Protokollierung und nachvollziehbare Governance-Regeln.

Gerade diese Architektur macht vernetzte KI-Agenten erst skalierbar. Ein Agent vertraut nicht automatisch einem anderen Agenten. Stattdessen wird jede Zusammenarbeit anhand definierter Richtlinien, Berechtigungen und Sicherheitsmechanismen überprüft. Damit entwickelt sich Zero Trust von einem Sicherheitsmodell für Benutzer:innen und Systeme zu einem grundlegenden Architekturprinzip moderner Multi-Agent-Systeme.

Die neue Plattformschicht der KI

Die Entwicklung hin zu vernetzten KI-Agenten zeigt, dass künstliche Intelligenz zunehmend zu einer eigenständigen Plattformschicht moderner IT-Landschaften wird. Über viele Jahre standen Anwendungen im Mittelpunkt digitaler Arbeitsplätze. Mit dem Übergang in die Cloud rückten Datenplattformen und vernetzte Dienste in den Fokus. Die nächste Evolutionsstufe geht noch einen Schritt weiter: Künftig werden spezialisierte KI-Agenten darüber entscheiden, wie Menschen mit Anwendungen, Daten und Geschäftsprozessen interagieren.

Von Anwendungen zu digitalen Arbeitskräften

Damit verändert sich nicht nur die Softwarearchitektur, sondern auch das Verständnis digitaler Arbeit. KI-Agenten unterstützen nicht länger ausschließlich einzelne Funktionen innerhalb einer Anwendung. Sie übernehmen zunehmend eigenständige Aufgaben, koordinieren Arbeitsabläufe, greifen auf Werkzeuge zu und arbeiten mit anderen Agenten zusammen. Aus Softwarefunktionen entwickeln sich digitale Arbeitskräfte, die definierte Verantwortungsbereiche innerhalb einer Organisation übernehmen.

Agenten-Governance wird zur Kernaufgabe der IT

Diese Entwicklung verändert zugleich die Rolle der IT-Abteilungen. Administrator:innen verwalten künftig nicht mehr ausschließlich Benutzerkonten, Endgeräte, Anwendungen und Berechtigungen. Sie müssen zusätzlich steuern, welche Agenten verfügbar sind, auf welche Daten sie zugreifen dürfen, welche Werkzeuge sie nutzen können, welche Entscheidungen sie eigenständig treffen dürfen und wie ihre Aktivitäten nachvollziehbar dokumentiert werden.

Agenten-Governance entwickelt sich damit zu einem neuen Kernbereich moderner IT-Strategien. Themen wie Identitäten, Berechtigungen, Compliance, Protokollierung, Kostenkontrolle und Lebenszyklusmanagement werden künftig nicht mehr nur für Benutzer:innen oder Anwendungen relevant sein, sondern ebenso für KI-Agenten.

Die nächste Evolutionsstufe der Unternehmens-IT

Unternehmen stehen deshalb vor einer neuen strategischen Aufgabe. Die entscheidende Frage lautet künftig nicht mehr, welchen Copilot oder welchen KI-Assistenten sie einsetzen möchten. Sie müssen verstehen, welche Agentenarchitektur entsteht, wie spezialisierte Agenten sicher zusammenarbeiten und wie sich diese neue digitale Belegschaft produktiv, wirtschaftlich und kontrolliert steuern lässt.

Damit entwickelt sich künstliche Intelligenz von einer einzelnen Softwarefunktion zu einer grundlegenden Plattformschicht, auf der die nächste Generation digitaler Geschäftsprozesse entstehen wird.

Von der Agentenarchitektur zur Wirtschaftlichkeit

Mit der zunehmenden Verbreitung vernetzter KI-Agenten verändert sich nicht nur die technische Architektur moderner IT-Landschaften, sondern auch deren wirtschaftliche Bedeutung. Solange künstliche Intelligenz einzelne Funktionen innerhalb einer Anwendung unterstützt, stehen vor allem Produktivität und Benutzererlebnis im Mittelpunkt. Übernehmen KI-Agenten jedoch eigenständig Aufgaben, koordinieren andere Agenten oder werden aktiv in Geschäftsprozesse eingebunden, entwickeln sie sich zu einer betrieblichen Ressource mit messbarem Aufwand, Nutzen und Ressourcenverbrauch.

Agenten verursachen nicht nur Nutzen, sondern auch Kosten

Diese Entwicklung eröffnet eine neue Perspektive auf künstliche Intelligenz. Unternehmen werden künftig nicht mehr ausschließlich bewerten, welche Aufgaben ein KI-Agent übernehmen kann, sondern auch, welche Rechenressourcen er benötigt, welche Kosten dadurch entstehen und welcher geschäftliche Mehrwert daraus resultiert. Neben Architektur, Governance und Sicherheit gewinnen damit zunehmend wirtschaftliche Aspekte an Bedeutung.

Die nächste Herausforderung heißt Agentic Economics

Genau an dieser Stelle beginnt eine Diskussion, die derzeit erst am Anfang steht. Neue Abrechnungsmodelle, Token-basierte Nutzung, Copilot Credits, agentische Workflows und KI-gestützte Automatisierung verändern die Art und Weise, wie Unternehmen den Einsatz künstlicher Intelligenz kalkulieren und steuern. KI-Agenten werden damit nicht nur zu technischen Komponenten einer IT-Architektur, sondern zu einer Ressource, deren Einsatz wirtschaftlich geplant, überwacht und optimiert werden muss.

Der folgende Exkurs zeigt, dass diese Entwicklung keineswegs theoretisch ist. Am Beispiel aktueller Erfahrungen mit Claude Code wird deutlich, wie schnell leistungsfähige KI-Agenten zu einem relevanten Kostenfaktor werden können. Genau diese Fragestellungen bilden zugleich den Ausgangspunkt des geplanten Folgebeitrags Copilot Cowork: Wenn KI plötzlich eine Rechnung schreibt, in dem die Ökonomie agentischer KI im Mittelpunkt stehen wird.

Exkurs: Wenn KI plötzlich zur Kostenfrage wird

Agentische KI verändert die Kostenstruktur

Mit der zunehmenden Verbreitung agentischer KI rückt eine Fragestellung in den Mittelpunkt, die bislang häufig unterschätzt wird: Was passiert eigentlich, wenn KI-Systeme nicht mehr nur Antworten erzeugen, sondern eigenständig planen, recherchieren, Werkzeuge nutzen und komplexe Aufgaben über längere Zeiträume bearbeiten?

Vom Chatbot zum aktiven Ressourcenverbraucher

Der Unterschied zwischen einem klassischen Chatbot und einem KI-Agenten besteht nicht nur in seiner Leistungsfähigkeit, sondern auch in seinem Arbeitsverhalten. Ein Chatbot verarbeitet in der Regel eine Eingabe und erzeugt darauf eine Antwort. Ein agentisches System dagegen zerlegt eine Aufgabe in zahlreiche Teilschritte, bewertet Zwischenergebnisse, ruft externe Werkzeuge auf, durchsucht Dokumente, kommuniziert mit anderen Agenten und entscheidet eigenständig über den nächsten Handlungsschritt.

Jede dieser Aktionen erzeugt zusätzlichen Ressourcenverbrauch. Jede Recherche, jede Modellabfrage, jede Zusammenfassung und jede Interaktion mit einer externen Anwendung benötigt Rechenleistung und verursacht – abhängig vom jeweiligen Abrechnungsmodell – zusätzliche Token- und Infrastrukturkosten.

Damit verändert sich die wirtschaftliche Betrachtung künstlicher Intelligenz grundlegend. Nicht mehr allein die Anzahl der Benutzer:innen bestimmt die Kosten einer KI-Plattform, sondern zunehmend auch die Komplexität und Autonomie der Aufgaben, die ein Agent selbstständig übernimmt.

Claude Code zeigt die wirtschaftlichen Herausforderungen

Wie schnell agentische KI zu einem wirtschaftlich relevanten Faktor werden kann, zeigen die aktuellen Erfahrungen rund um Claude Code. Mehrere öffentlich dokumentierte Berichte beschreiben, dass agentische Entwicklungsumgebungen innerhalb kurzer Zeit deutlich mehr Tokens verbrauchen als ursprünglich erwartet. Entwickler:innen berichteten von überraschend schnell erreichten Nutzungslimits, angepassten Fair-Use-Regelungen und Betriebskosten, die erheblich über den Erwartungen klassischer Chatbot-Anwendungen lagen.

Autonomie verändert den Ressourcenverbrauch

Diese Entwicklung ist keine Besonderheit von Claude Code selbst, sondern eine unmittelbare Folge agentischer Arbeitsweisen. Ein KI-Agent beantwortet nicht nur einzelne Anfragen. Er plant eigenständig Arbeitsschritte, durchsucht Quellcode und Dokumentationen, startet wiederholt Modellabfragen, bewertet Zwischenergebnisse und nutzt Werkzeuge, bis eine Aufgabe abgeschlossen ist. Jede dieser Aktivitäten erhöht den Verbrauch von Tokens, Rechenleistung und Cloud-Ressourcen.

Dadurch wird deutlich, dass der Ressourcenbedarf eines KI-Agenten nicht mehr allein von der Anzahl der Benutzer:innen abhängt. Entscheidend ist vielmehr, wie autonom ein Agent arbeitet, wie viele Werkzeuge er einsetzt und wie komplex die ihm übertragenen Aufgaben sind.

Wenn fehlende Kontrolle teuer wird

Wie wichtig geeignete Steuerungsmechanismen sind, verdeutlicht auch ein viel diskutierter Praxisfall. Aufgrund einer fehlerhaften Agentenlogik führte ein KI-Agent wiederholt kostenpflichtige Cloud-Aktionen aus und verursachte dadurch Infrastrukturkosten von rund 500.000 US-Dollar. Ursache war nicht das zugrunde liegende Sprachmodell, sondern eine unzureichend begrenzte Automatisierung, die ohne wirksame Kosten- und Ausführungskontrollen arbeitete.

Solche Beispiele zeigen eindrucksvoll, dass Unternehmen agentische KI künftig nicht nur unter technischen Gesichtspunkten betrachten dürfen. Mit wachsender Autonomie steigen auch die Anforderungen an Budgetgrenzen, Laufzeitbeschränkungen, Genehmigungsprozesse und kontinuierliches Monitoring. Die wirtschaftliche Steuerung wird damit zu einem ebenso wichtigen Bestandteil moderner Agentenarchitekturen wie Sicherheit oder Berechtigungsmanagement.

Governance bedeutet künftig auch Kostenkontrolle

Mit zunehmender Autonomie verändert sich zwangsläufig auch die Rolle der IT. Unternehmen müssen künftig nicht mehr nur entscheiden, welche Agenten auf Daten, Anwendungen oder Werkzeuge zugreifen dürfen. Ebenso wichtig wird die Frage, welche Ressourcen ein Agent verbrauchen darf, welche Aufgaben er eigenständig ausführen kann und wie sich sein Einsatz wirtschaftlich steuern lässt.

Agenten benötigen wirtschaftliche Leitplanken

Agenten-Governance umfasst damit weit mehr als Sicherheit und Berechtigungen. Je selbstständiger KI-Agenten arbeiten, desto wichtiger werden verbindliche Regeln für ihren Ressourcenverbrauch. Unternehmen müssen festlegen, welche Modelle eingesetzt werden dürfen, welche Werkzeuge ein Agent nutzen kann, wie viele Tokens oder Cloud-Ressourcen zur Verfügung stehen und unter welchen Bedingungen kostenintensive Aktionen genehmigt oder begrenzt werden.

Damit erweitert sich der klassische Governance-Begriff um eine wirtschaftliche Dimension. Neben Identitäten, Rollen, Berechtigungen und Compliance gewinnen künftig auch Token-Budgets, Nutzungslimits, Kostenobergrenzen, Freigabeprozesse und kontinuierliches Verbrauchsmonitoring an Bedeutung.

Wirtschaftlichkeit wird Teil der IT-Governance

Diese Entwicklung erinnert an frühere Veränderungen der Unternehmens-IT. Mit der Einführung von Cloud Computing entstanden neue Disziplinen wie FinOps, um den Verbrauch von Cloud-Ressourcen transparent zu steuern und Kosten kontinuierlich zu optimieren. Eine vergleichbare Entwicklung zeichnet sich nun auch für agentische KI ab.

Unternehmen werden künftig nicht nur überwachen, welche Entscheidungen ein Agent trifft, sondern ebenso, welche Kosten er verursacht und welchen geschäftlichen Nutzen er erzielt. Wirtschaftliche Steuerung entwickelt sich damit zu einem festen Bestandteil moderner Agenten-Governance – ebenso selbstverständlich wie Identitätsmanagement, Informationsschutz oder Compliance.

Die nächste Herausforderung heißt Return on AI

Die Entwicklung agentischer KI macht deutlich, dass Unternehmen künstliche Intelligenz künftig nicht mehr ausschließlich unter technischen Gesichtspunkten bewerten können. Mit wachsender Autonomie rückt neben Architektur, Sicherheit und Governance zunehmend eine weitere Frage in den Mittelpunkt: Welchen wirtschaftlichen Nutzen erzeugt ein KI-Agent – und stehen seine Kosten in einem angemessenen Verhältnis zu diesem Nutzen?

Von der technischen Leistungsfähigkeit zum geschäftlichen Mehrwert

Diese Perspektive erweitert die bisherige Betrachtung künstlicher Intelligenz grundlegend. Entscheidend ist künftig nicht mehr allein, ob ein Agent eine Aufgabe lösen kann, sondern ob er sie schneller, qualitativ hochwertiger und wirtschaftlicher erledigt als bestehende Prozesse oder menschliche Arbeitsabläufe. Der tatsächliche Mehrwert eines KI-Agenten bemisst sich damit nicht nur an seiner technischen Leistungsfähigkeit, sondern zunehmend am Return on AI – also am Verhältnis zwischen erzeugtem Geschäftswert und den dafür eingesetzten Ressourcen.

Die Ökonomie agentischer KI beginnt erst

Genau an dieser Stelle schließt sich der Kreis dieses Beitrags. Aus einfachen Sprachassistenten entwickeln sich spezialisierte KI-Agenten, aus einzelnen Agenten entstehen vernetzte Agentensysteme und aus Softwarefunktionen werden zunehmend digitale Arbeitskräfte mit messbarem Ressourcenverbrauch. Damit verändert sich nicht nur die Architektur moderner IT-Landschaften, sondern auch ihre wirtschaftliche Steuerung.

Die nächste große Herausforderung besteht deshalb nicht mehr allein darin, leistungsfähige KI-Agenten zu entwickeln, sondern ihren Einsatz nachhaltig, kontrolliert und wirtschaftlich zu gestalten. Genau dieser Fragestellung widmet sich der folgende Beitrag dieser Reihe: Copilot Cowork: Wenn KI plötzlich eine Rechnung schreibt. Dort steht die Ökonomie agentischer KI im Mittelpunkt – von Token-Kosten und Copilot Credits bis hin zur Frage, wie Unternehmen den geschäftlichen Nutzen einer digitalen Agentenlandschaft künftig messen und steuern können.

Fazit: KI-Agenten werden zur neuen Plattformschicht

Die Entwicklung von Siri AI, Microsoft 365 Copilot und anderen agentischen KI-Systemen zeigt, dass künstliche Intelligenz eine neue Evolutionsstufe erreicht. Nach klassischen Sprachassistenten und der ersten Generation generativer Chatbots entstehen zunehmend Systeme, die ihren jeweiligen Kontext verstehen, Werkzeuge nutzen, Entscheidungen vorbereiten und innerhalb definierter Grenzen eigenständig handeln können.

Damit verändert sich die Rolle künstlicher Intelligenz grundlegend. KI wird nicht länger ausschließlich zu einer Schnittstelle für Fragen und Antworten. Sie entwickelt sich zu einer eigenständigen Plattformschicht zwischen Benutzer:innen, Anwendungen, Daten und Geschäftsprozessen. Der eigentliche Wert eines KI-Agenten entsteht deshalb nicht allein durch die Leistungsfähigkeit seines Sprachmodells, sondern durch den Kontext, den er erschließen kann, die Werkzeuge, die ihm zur Verfügung stehen, und die Aufgaben, die er verantwortungsvoll ausführen darf.

Kontext wird zur entscheidenden Ressource

Apple und Microsoft stehen exemplarisch für zwei unterschiedliche Architekturansätze. Apple entwickelt mit Siri AI einen Plattform-Agenten, der den persönlichen Nutzungskontext eines Geräts versteht und daraus konkrete Aktionen ableiten kann. Microsoft verfolgt mit Microsoft 365 Copilot den Ansatz eines Wissens-Agenten, der den organisatorischen Kontext erschließt und Unternehmenswissen produktiv nutzbar macht.

Beide Systeme verfolgen unterschiedliche Ziele und beantworten unterschiedliche Fragestellungen. Apple konzentriert sich auf den persönlichen digitalen Alltag, Microsoft auf den Wissensraum einer Organisation. Die entscheidende Erkenntnis dieses Beitrags lautet daher nicht, welcher Assistent leistungsfähiger ist, sondern dass Kontext zur eigentlichen Ressource moderner KI-Agenten wird.

Die Zukunft gehört Agentennetzwerken

Mit zunehmender Spezialisierung wird deutlich, dass kein einzelner KI-Agent sämtliche Aufgaben gleichermaßen gut erfüllen kann. Geräte-Agenten liefern situativen Kontext, Wissens-Agenten erschließen organisatorische Zusammenhänge und Fachagenten bringen domänenspezifisches Expertenwissen ein. Erst ihre koordinierte Zusammenarbeit innerhalb von Multi-Agent-Systemen ermöglicht Lösungen, die weit über die Fähigkeiten einzelner Assistenten hinausgehen.

Damit rücken neue Architekturprinzipien in den Mittelpunkt: Interoperabilität, Orchestrierung, Zero Trust, Agenten-Governance und kontrollierter Kontextaustausch werden zu grundlegenden Voraussetzungen der nächsten Generation intelligenter Plattformen.

Technik allein reicht nicht mehr aus

Mit der zunehmenden Verbreitung agentischer KI verschiebt sich der Blick zugleich über die technische Architektur hinaus. Regulatorische Fragestellungen wie der Digital Markets Act, Anforderungen an Datenschutz und Interoperabilität sowie wirtschaftliche Aspekte wie Token-Verbrauch, Ressourcensteuerung und Agenten-Governance zeigen, dass KI-Agenten künftig nicht mehr ausschließlich unter technischen Gesichtspunkten bewertet werden können.

Unternehmen müssen deshalb nicht nur entscheiden, welche KI-Agenten eingesetzt werden, sondern ebenso, welche Daten sie nutzen dürfen, welche Entscheidungen sie treffen können, wie ihre Zusammenarbeit gesteuert wird und welchen wirtschaftlichen Mehrwert sie tatsächlich erzeugen.

Einordnung für die IT-Praxis

Für Administrator:innen, IT-Architekt:innen und Entscheider:innen ergibt sich daraus eine klare Konsequenz. KI-Agenten sind kein zusätzliches Feature bestehender Anwendungen. Sie entwickeln sich zu einer neuen Plattformschicht, die Identitäten, Anwendungen, Daten, Werkzeuge und Geschäftsprozesse intelligent miteinander verbindet.

Die Einführung agentischer KI beginnt deshalb nicht mit der Auswahl eines bestimmten Produkts. Sie beginnt mit einer tragfähigen Architektur, qualitativ hochwertigen Daten, klaren Berechtigungskonzepten, nachvollziehbarer Governance und einer wirtschaftlich sinnvollen Steuerung der entstehenden Agentenlandschaft.

Die entscheidende Frage lautet künftig nicht mehr, ob Siri AI oder Microsoft 365 Copilot der bessere Assistent ist. Sie lautet vielmehr: Welche Agentenarchitektur passt zum jeweiligen Kontext – und wie lässt sie sich sicher, interoperabel, nachvollziehbar und wirtschaftlich erfolgreich betreiben? Genau diese Fragestellung wird die nächste Entwicklungsstufe künstlicher Intelligenz prägen – und weit über den Vergleich einzelner Produkte hinausreichen.

Quellenangaben

(Abgerufen am 28.06.2026)

Forschung, Standards und wissenschaftliche Grundlagen

Ali Dorri, Salil S. Kanhere, Raja Jurdak (IEEE): Multi-Agent Systems: A Survey
Chandan Singh, Jianfeng Gao (Microsoft): Understanding the brain with AI-driven explanations and experiments
Diego Maldonado, Edison Cruz, Jackeline Abad Torres, Patricio J. Cruz, Silvana del Pilar Gamboa Benitez (IEEE): Multi-Agent Systems: A Survey About Its Components, Framework and Workflow
Microsoft: Agent AI
Microsoft: Agentic AI Research and Innovation (AARI)
NVIDIA: NVIDIA Nemotron
Richard Antonello, Chandan Singh, Shailee Jain, Aliyah Hsu, Sihang Guo, Jianfeng Gao, Bin Yu, Alexander Huth (arXiv): Generative causal testing to bridge data-driven models and scientific theories in language neuroscience
Sarosh Talukdar (IEEE): Multi-agent systems
Victor R. Lesser (ACM Digital Library): Multi-agent systems

Einordnung und weiterführende Analysen

Akhilesh Pothuri (DEV Community): Personal AI Agents Explained: What They Are, How They Work, and How to Build One
Brent Ellis, Enza Iannopollo , Sam Higgins , Alla Valente , William McKeon-White , Katie Linford (Forrester): Anthropic Doubles Down On Agentic For The Enterprise
David Gewirtz (ZDNET): Anthropic rolls out Claude Tag, your new agentic AI coworker in Slack
Jason Cyr (Medium): Building a Personal AI Agent: From Zero Code to Autonomous System
Marc Abraham (Medium): Learning from Anthropic about building effective agents
Paul Smith-Goodson (Forbes): Microsoft Discovery Aims To Advance The Era Of Agentic Science

Weiterlesen hier im Blog

Siri AI vs. Microsoft 365 Copilot: Warum Apple und Microsoft KI völlig unterschiedlich denken

Inhalt

Kategorien: Copilot | KI | KI-Grundlagen

Veröffentlicht: 28. Juni 2026