Generative KI ist aufgrund ihrer Stärken in der Erstellung von Texten und Bildern, aber Ton und Bewegtbild besonders für den Einsatz im Marketing geeignet. Viele der Anwendungsfälle bei den Unternehmen, aber auch in den Agenturen liegen naheliegenderweise in diesem Bereich. Neben dem Einsatz von Chatbots für die Textgenerierung und Bildgeneratoren für die Bildgenerierung können diese Werkzeuge auch in Agentensystem zum Einsatz kommen. Damit lassen sich ganze Arbeitsabläufe automatisieren, die auch nichtlineare Ausführung erlauben. Das ist letztendlich der Kern, wenn von Agenten die Rede ist.
Da der Begriff sehr weitläufig ist, bietet es sich an, mit einigen Beispielen einen ersten Eindruck zu vermitteln, was Agenten sind und was sie leisten können:
Deep Research
Eine sehr einfach zugängliche agentische KI ist der Deep Research - Modus von ChatGPT und anderen öffentlichen Chatbots. Dieser kann sehr gut dafür eingesetzt werden, Recherchearbeiten zu unterstützen, ohne einen großen Aufwand zu betreiben. Wenn der Modus angeschaltet ist und der Benutzer eine Anfrage stellt, passieren verschiedene Dinge:
- Analyse der Anfrage
- Planung der Recherche
- Erzeugung von Suchanfragen
- Durchführung der Suchen
- Extraktion der Informationen aus den Suchergebnissen
- Eventuell Durchführung von Iterationen
- Ranking der Ergebnisse
- Erzeugung einer Antwort aus den Ergebnissen
Wir sehen hier, dass im Hintergrund eine Abfolge von Schritten durchgeführt wird, die zwar aus Teilabschnitten besteht, aber keine typische Programmierung darstellt, sondern eher einer Prozessabfolge, wie sie auch ein Mensch ausführen würde. Der Agent übernimmt hier also eine Aufgabe, die sonst ein Mensch ganz ähnlich ausführen würde.
Content-Erstellung
Gerade die Erstellung von Content - sei es Text, Bild oder sogar Video - wird durch generative KI komplett auf den Kopf gestellt. Mit den Fähigkeiten der Systeme können viele Aufgaben, die gestern noch einen echten Experten erfordert haben, durch jemanden erledigt werden, der einfach eine KI-Lösung einsetzt. Ein sehr aktuelles Beispiel aus Mitte 2025 ist das Thema Bildbearbeitung. Google hat mit einem neuen Modell namens Gemini Pro Flash Image (Spitzname Nano Banana) seiner KI-Tochter Deepmind ein Werkzeug veröffentlicht, mit dem über einen Textprompt Bilder auf eine Weise und in einer Qualität bearbeitet werden können, die bislang Stunden oder Tage an Arbeit durch einen Grafikdesigner erfordert haben. Ein Beispiel von der Google Website:

Ähnlich wie bei Text, Bild und Video verhält es sich bei Ton, also vertonte Texte oder auch Musik. Auch hier war es in der Vergangenheit ohne echte Expertise kaum möglich qualitativ hochwertigen Content zu erzeugen. Durch die Möglichkeiten der generativen KI kann auch in diesem Bereich ein Anwender ohne ein Instrument spielen zu können nur durch die Formulierung einer guten Anweisung (Textprompt) ein Musikstück generieren.
Die Möglichkeiten können im Marketing sehr effizient eingesetzt werden, ersetzen aber in der Regel nicht vollständig die Expertise erfahrener Menschen. Der Effekt kann aber in gestiegener Effizienz und häufig auch einer Steigerung des Outputs für Marketing Content erzielt werden. Vor allem für eher kurzlebige Assets, wie sie häufig im Social Media Marketing eingesetzt werden, können hier erhebliche Kosteneinsparungen oder eine höhere Frequenz an Publikationen das Ergebnis sein.
Möglichkeiten souveräner Umsetzung
Grundsätzlich sind die öffentlichen Angebote sehr leistungsstark und eine souveräne Umsetzung auf gleichem Niveau wie die Angebote von beispielsweise OpenAI und Google nur mit relativ hohem Aufwand zu erzielen. Unternehmen sollten sich daher zunächst die Frage stellen, ob eine souveräne Umsetzung notwendig ist bzw. echte Vorteile bringt. Der Blick geht daher zunächst auf diese Frage.
Wann sollte man auf Souveränität setzen?
Die Entscheidung für eine souveräne KI-Lösung ist strategisch und sollte auf Basis klarer Kriterien getroffen werden. Während öffentliche Tools einen schnellen Einstieg ermöglichen, gibt es triftige Gründe, die Kontrolle über die Technologie im eigenen Haus zu behalten.
1. Datenschutz und Datensicherheit
Das wohl wichtigste Argument. Im Marketing werden sensible Daten verarbeitet – von Kundendaten aus CRM-Systemen über interne Verkaufszahlen bis hin zu vertraulichen Kampagnenstrategien. Bei der Nutzung öffentlicher KI-Anbieter werden diese Daten potenziell an externe Server (oft in den USA) gesendet. Eine souveräne Lösung, die auf der eigenen Infrastruktur läuft, stellt sicher, dass alle Daten das Unternehmen nicht verlassen. Dies ist insbesondere im Hinblick auf die DSGVO und den Schutz von Geschäftsgeheimnissen unerlässlich.
2. Kontrolle und unternehmensspezifische Anpassung
Öffentliche Modelle sind Alleskönner, aber keine Spezialisten für Ihre Marke. Ein souveräner KI-Agent kann gezielt auf den eigenen Unternehmensdaten trainiert werden (Fine-Tuning). Man kann ihm die Markenstimme (Tone of Voice), erfolgreiche vergangene Kampagnen, Produktdatenbanken und Designrichtlinien beibringen. Das Ergebnis sind Inhalte und Strategien, die nicht nur generisch gut, sondern passgenau für das eigene Unternehmen sind.
3. Kostenkontrolle bei Skalierung
Die API-Kosten für öffentliche Modelle können bei intensiver Nutzung schnell eskalieren. Ein Marketing-Agent, der Hunderte von Produktbeschreibungen pro Tag erstellt, Social-Media-Kanäle analysiert und personalisierte Newsletter entwirft, erzeugt eine enorme Menge an Anfragen. Eine eigene, souveräne Instanz verursacht zwar initiale Kosten für Hardware und Implementierung, kann aber bei hohem Durchsatz langfristig deutlich günstiger sein (Total Cost of Ownership).
4. Unabhängigkeit und strategische Resilienz
Die Abhängigkeit von einem einzigen externen Anbieter birgt Risiken. Plötzliche Preisänderungen, die Einstellung eines Modells oder API-Anpassungen können die eigenen Prozesse empfindlich stören. Eine souveräne Lösung schafft technologische Unabhängigkeit und stellt sicher, dass kritische Marketingprozesse unter eigener Kontrolle bleiben.
5. Einzigartige und komplexe Arbeitsabläufe
Manche Marketing-Automationen sind zu spezifisch, um sie mit Standard-Tools abzubilden. Ein souveräner Agent kann tief in die eigene IT-Landschaft integriert werden. Er kann beispielsweise direkt auf das interne Analytics-Dashboard zugreifen, um die Performance einer Kampagne auszuwerten, daraus lernen und auf Basis der Echtzeitdaten autonom eine neue Social-Media-Kampagne planen, texten, bebildern und zur Freigabe vorlegen.
Beispiele für die Realisierungsmöglichkeiten
Wenn die Entscheidung für eine souveräne Umsetzung gefallen ist, gibt es verschiedene Wege, diese technisch zu realisieren. Diese unterscheiden sich in Komplexität und Grad der Souveränität.
1. Hosting von Open-Source-Modellen
Dies ist der gängigste und pragmatischste Ansatz. Leistungsstarke Sprachmodelle wie Metas Llama-Serie, Mistral AI oder Modelle von Aleph Alpha sind frei verfügbar. Unternehmen können diese Modelle auf eigener Hardware (On-Premise) oder in einer privaten Cloud-Umgebung (z.B. bei europäischen Anbietern) installieren und betreiben. Dies erfordert zwar Investitionen in GPU-Server und entsprechendes Know-how, bietet aber volle Datenkontrolle und eine solide Basis für weitere Anpassungen.
2. Fine-Tuning auf eigenen Daten
Ein gehostetes Open-Source-Modell ist zunächst ein Generalist. Der entscheidende Schritt zur Spezialisierung ist das Fine-Tuning. Hierbei wird das Basismodell mit unternehmenseigenen Daten nachtrainiert. Für einen Marketing-Agenten könnten das zum Beispiel sein:
- Alle bisherigen Blogartikel und Social-Media-Posts zur Erlernung des Marken-Tonalität.
- Erfolgreiche Werbetexte und deren Performance-Daten, damit der Agent lernt, was funktioniert.
- Das gesamte Produktportfolio mit allen technischen Daten und Vorteilen.Nach dem Fine-Tuning agiert das Modell wie ein digitaler Mitarbeiter, der das Unternehmen bereits gut kennt.
3. Aufbau eines Agenten-Systems mit RAG (Retrieval-Augmented Generation)
Ein Modell allein ist noch kein Agent. Ein Agent benötigt Zugriff auf Werkzeuge und aktuelle Informationen. Hier kommt die RAG-Architektur ins Spiel. Anstatt alle Informationen in das Modell hineinzutrainieren, wird dem Modell eine Wissensdatenbank zur Seite gestellt. Der Agent kann so in Echtzeit auf aktuelle Daten zugreifen.
Ein Beispiel: Ein Marketing-Agent soll einen Social-Media-Post über ein neues Produkt erstellen.
- Der Agent erhält den Auftrag: "Erstelle einen Instagram-Post für Produkt XY".
- Mittels RAG greift er auf die interne Produktdatenbank zu und holt sich die neuesten Spezifikationen und Marketing-Freigaben für Produkt XY.
- Er prüft die aktuellen Performance-Daten im Analytics-Tool, um zu sehen, welche Bildstile zuletzt gut funktioniert haben.
- Mit diesen Informationen erstellt er einen passenden Text und einen Prompt für die interne Bild-KI.
- Das Ergebnis wird dem Marketing-Team zur finalen Freigabe vorgelegt.
Dieser Ansatz verbindet die kreativen Fähigkeiten des Sprachmodells mit der Faktenbasis interner, aktueller Daten und macht den Agenten erst wirklich schlagkräftig und souverän.
Frameworks und Systeme zur Implementierung
Um die beschriebenen Konzepte nicht von Grund auf neu entwickeln zu müssen, existieren mittlerweile leistungsfähige Open-Source-Frameworks. Diese bieten die notwendigen Bausteine, um komplexe Agenten-Systeme effizient zu erstellen, zu testen und zu betreiben.
- LangChain: Eines der bekanntesten und umfangreichsten Frameworks zur Erstellung von Anwendungen mit Sprachmodellen. LangChain bietet modulare Komponenten für die Verkettung von LLM-Aufrufen (
Chains), die Integration externer Werkzeuge (z.B. APIs, Datenbanken) und die Verwaltung von Gedächtnis (Memory). Es eignet sich hervorragend, um komplexe, mehrstufige Arbeitsabläufe zu definieren. - LlamaIndex: Dieses Framework ist speziell auf die Umsetzung von RAG-Architekturen spezialisiert. LlamaIndex erleichtert das Anbinden, Indizieren und Abfragen unterschiedlichster Datenquellen (PDFs, Datenbanken, APIs). Es ist die ideale Wahl, wenn der Fokus darauf liegt, ein Sprachmodell mit einem großen, aktuellen Wissensschatz auszustatten.
- Microsoft Autogen: Autogen ist ein Framework, das sich auf die Erstellung von Multi-Agenten-Systemen konzentriert. Anstatt eines einzigen Agenten, der alle Aufgaben erledigt, können hier mehrere spezialisierte Agenten miteinander kommunizieren und zusammenarbeiten. Man könnte beispielsweise einen "Analyse-Agenten" mit einem "Texter-Agenten" und einem "Social-Media-Manager-Agenten" kollaborieren lassen, um eine Kampagne zu entwickeln.
- CrewAI: Ähnlich wie Autogen verfolgt CrewAI einen kollaborativen Ansatz. Das Framework ist darauf ausgelegt, eine "Crew" von KI-Agenten mit definierten Rollen, Zielen und Aufgaben zu orchestrieren. Dieser Ansatz eignet sich besonders gut, um menschliche Teamprozesse digital nachzubilden und zu automatisieren.
- n8n: Hierbei handelt es sich um eine Low-Code-Plattform zur Workflow-Automatisierung, die sich ebenfalls selbst hosten lässt. Während die anderen Frameworks primär code-basiert sind, ermöglicht n8n die Erstellung komplexer Abläufe über eine visuelle Benutzeroberfläche. Durch die Integration von KI-Modellen können so auch Nicht-Entwickler anspruchsvolle Agenten-Workflows erstellen, die verschiedene Systeme (z.B. CRM, Social Media, interne Datenbanken) miteinander verbinden.
Die Wahl des richtigen Frameworks hängt vom spezifischen Anwendungsfall ab. Für viele souveräne Marketing-Agenten wird eine Kombination – beispielsweise LlamaIndex für den Datenzugriff und LangChain oder CrewAI für die Prozesssteuerung – die leistungsfähigste Lösung darstellen.


