Alle News & Events anzeigen
21.10.2025

KI-Flash: Neue Orientierungshilfe der DSK zu RAG-basierten KI-Systemen

Nachdem wir in unserem letzten KI-Flash über die aktuellen FAQ der EU-Kommission zur Umsetzung der KI-Verordnung berichtet haben, möchten wir Ihnen auch künftig in regelmäßigen Abständen rechtliche Impulse zu aktuellen Entwicklungen geben.

 

Heutiges Thema: Neue Orientierungshilfe der DSK zu RAG-basierten KI-Systemen

Am 17. Oktober 2025 hat die Datenschutzkonferenz (DSK) eine neue Orientierungshilfe (OH) zu den datenschutzrechtlichen Anforderungen beim Einsatz generativer KI-Systeme mit Retrieval Augmented Generation (RAG) veröffentlicht. Das Dokument richtet sich insbesondere an Unternehmen und öffentliche Stellen, die solche Systeme bereits nutzen oder deren Einsatz planen. Es beleuchtet sowohl die technischen Grundlagen als auch die datenschutzrechtlichen Implikationen und gibt konkrete Empfehlungen für die Praxis. Da RAG-basierte Systeme zunehmend in verschiedenen Branchen eingesetzt werden, wurde diesem Themenfeld nun ein eigener KI-Flash gewidmet.

 

Technischer Hintergrund

Retrieval Augmented Generation (RAG) bezeichnet ein technisches Konzept zur Verbesserung des Outputs generativer KI-Systeme, insbesondere großer Sprachmodelle (Large Language Models, LLMs). Ziel ist es, die Qualität, Genauigkeit und Nachvollziehbarkeit der generierten Inhalte zu erhöhen, indem ausgewählte Wissensquellen in den Verarbeitungsschritt des KI-Systems eingebunden werden. Ein RAG-System besteht – vereinfacht dargestellt – aus zwei funktional getrennten, aber eng verzahnten Hauptkomponenten:

  • Retriever: Diese Komponente identifiziert und extrahiert kontextrelevante Informationen aus einer externen Wissensquelle (z. B. Vektordatenbank, Dokumentenspeicher). Die Auswahl erfolgt typischerweise auf Basis semantischer Ähnlichkeit zur Nutzeranfrage – die DSK stellt hierbei auf die semantische Nähe durch die Distanz von Vektorrepräsentationen im Einbettungsraum ab. Diese Vektorrepräsentationen entstehen durch sogenannte Embeddings, also mathematische Abbildungen von Texten in einen Vektorraum, die semantische Ähnlichkeiten zwischen Textabschnitten rechnerisch erfassbar machen. Die eingebundenen Datenquellen können strukturierte oder unstrukturierte Inhalte enthalten, deren datenschutzrechtliche Bewertung – bei personenbezogenen Daten – gesondert erfolgen muss.

     

  • LLM-Komponente (generative KI-Modelle): Das Sprachmodell verarbeitet die vom Retriever bereitgestellten Inhalte und generiert darauf basierend eine Antwort. Die Ausgabe beruht somit nicht ausschließlich auf dem jeweiligen „Modellwissen“, sondern auf explizit eingebundenen, aktuellen und kontextbezogenen Informationen. Dies erhöht die Nachvollziehbarkeit der Ergebnisse, kann aber auch zu einer komplexeren Datenverarbeitung führen, insbesondere, da das Output durch die Kombination von externen Daten und modell-internem Wissen beeinflusst wird.

Die Architektur von RAG kann u.a. dazu beitragen, typische Schwächen generativer KI-Systeme – insbesondere die Tendenz zu „Halluzinationen“ – zu reduzieren und die Ausgaben besser nachvollziehbar zu gestalten. RAG-Systeme werden daher zunehmend in Unternehmen und Behörden eingesetzt, sowohl intern als auch extern. Sie unterstützen u.a. bei:

  • der Informationsrecherche,
  • der automatisierten Kundenkommunikation, sowie
  • datenintensiven Bereichen wie Forschung und Entwicklung.

Durch die Einbindung unternehmensspezifischer Wissensquellen ermöglichen sie eine kontextbezogene und effiziente Bearbeitung komplexer Aufgaben. Die DSK hebt in ihrer OH explizit hervor, dass RAG-Systeme zur digitalen Souveränität beitragen können, etwa durch lokalen Betrieb (On-Premise) und geringere Abhängigkeit von Cloud-Anbietern.

 

Datenschutzrechtliche Herausforderungen

RAG-Systeme sind aus datenschutzrechtlicher Sicht dennoch differenziert zu betrachten. Zwar bieten sie Potenzial zur Verbesserung der Datenverarbeitung, gleichzeitig entstehen nach Ansicht der DSK jedoch neue Herausforderungen:

  • Doppelte Datenverarbeitung: Personenbezogene Daten können sowohl im Retriever (z. B. durch eingebundene Dokumente) als auch „in“ der LLM-Komponente verarbeitet werden. Dies erhöht die Komplexität der datenschutzrechtlichen Bewertung.
  • Transparenz und Zweckbindung: Die modulare Architektur erschwert die klare Zuordnung von Zwecken sowie die transparente Information der Betroffenen, da die Herkunft und Bedeutung der Embeddings sowie die genaue Entstehung des Outputs nach Ansicht der DSK oft nicht nachvollziehbar sind.
  • Betroffenenrechte: Dynamisch generierte Inhalte können die Umsetzung von Auskunfts-, Berichtigungs- oder Löschrechten erschweren. Betroffenenrechte sind jedoch stets in allen Komponenten des RAG-Systems umzusetzen.
  • Rechtswidriges Training: Die datenschutzrechtliche Bewertung eines RAG-Systems muss sowohl das RAG-Subsystem als auch das zugrunde liegende Sprachmodell (LLM) umfassen. Ein rechtswidrig trainiertes Modell bleibt auch dann rechtwidrig, wenn es im Rahmen eines RAG-Systems eingesetzt wird. Die Einbindung externer Datenquellen kann die Qualität der Ausgaben verbessern, hebt jedoch die Anforderungen an das Basismodell nicht auf (wir hatten zum Meinungsbild des EDSA bereits berichtet).
  • Pflege der Datenquellen: Die Aktualisierung und Qualitätssicherung der eingebundenen Inhalte liegt in der Verantwortung des jeweiligen Betreibers und ist essenziell für die Verlässlichkeit der Ausgaben.

 

Datenschutzfreundliche Potenziale

Die DSK nennt jedoch auch einige Vorteile, die sich positiv auf die Datenschutzkonformität auswirken können. RAG

  • ermöglicht erhöhte Genauigkeit und Nachvollziehbarkeit durch Zugriff auf überprüfbare Datenquellen.
  • verringert Halluzinationen, da die generierten Inhalte auf reale, kontextbezogene Informationen gestützt werden.
  • ermöglicht einen datenschutzfreundlicheren Betrieb, insbesondere bei lokalem Hosting (On-Premise).
  • reduziert den Trainingsdatenbedarf, insbesondere im Vergleich zu Fine-Tuning-Ansätzen, da die RAG-Methode auf eine dynamische Anreicherung statt dauerhafte Modellanpassung setzt.
  • fördert digitale Souveränität, da Unternehmen eigene Datenquellen nutzen und sich bspw. von großen Cloud-Anbietern unabhängig machen können.

Unternehmen und Behörden, die RAG-Systeme einsetzen oder deren Einsatz planen, sollten gezielt Maßnahmen ergreifen, um die datenschutzrechtlichen Anforderungen zu erfüllen und die Potenziale der Technologie verantwortungsvoll zu nutzen. Die DSK empfiehlt insbesondere:

  • Durchführung einer Datenschutz-Folgenabschätzung gemäß Art. 35 DSGVO, unter Berücksichtigung aller Komponenten des RAG-Systems (Retriever, Vektordatenbank, LLM).
  • Klare Zweckdefinition und Zwecktrennung für die eingebundenen Datenquellen, insbesondere bei personenbezogenen Daten in Referenzdokumenten.
  • Aktualisierung und Pflege der Dokumentation, z. B. des Verzeichnisses von Verarbeitungstätigkeiten, inklusive Beschreibung der erweiterten Anfrage und Datenflüsse.
  • Implementierung technischer und organisatorischer Schutzmaßnahmen, etwa Mandantentrennung, Rechte- und Rollenkonzepte sowie Zugriffsbeschränkungen auf die Vektordatenbank.
  • Sicherstellung der Rechtskonformität der eingesetzten KI-Modelle, insbesondere hinsichtlich des Trainingsdatensatzes und der Einhaltung aller DSGVO-Grundsätze.
  • Etablierung von Kontrollmechanismen zur Qualitätssicherung, z. B. durch Systemprompts zur Quellenbindung, regelmäßige Prüfung der Referenzdokumente und Monitoring der KI-Ausgaben.
  • Schulung der Mitarbeitenden, insbesondere zu den datenschutzrechtlichen Besonderheiten von RAG-Systemen und zur sicheren Nutzung der Systeme im jeweiligen Anwendungskontext.

 

Praxishinweis

Der Einsatz von RAG-Systemen bietet Unternehmen und öffentlichen Stellen erhebliche Potenziale – insbesondere hinsichtlich Effizienz, Genauigkeit und digitaler Souveränität. Gleichzeitig verlangt die komplexe Architektur solcher Systeme eine sorgfältige datenschutzrechtliche Bewertung. Entscheidend ist, dass die Einbindung externer Datenquellen nicht als Freifahrtschein für die Nutzung generativer KI-Systeme verstanden werden darf. Vielmehr müssen alle Komponenten – vom Retriever bis zum LLM selbst – in die datenschutzrechtliche Analyse einbezogen werden, einschließlich der Referenzdokumente, der Vektordatenbank und des Embedding-Modells. Unsere Expert:innen bei SKW Schwarz unterstützen Sie gerne jederzeit bei der datenschutzkonformen Bewertung und Implementierung von RAG-Systemen. 
 

    Teilen

  • LinkedIn
  • XING