RAG & Datenschutz:
Was die neue DSK-Orientierungshilfe für dein Unternehmen bedeutet
Die Datenschutzkonferenz (DSK) hat klare Leitplanken für KI-Systeme mit Retrieval Augmented Generation (RAG) veröffentlicht. Hier erfährst du, was dahintersteckt – und warum KOSMO genau auf diese Anforderungen ausgelegt ist.
Wer ist die DSK – und warum ist sie wichtig?
Die Datenschutzkonferenz (DSK) ist das gemeinsame Gremium der unabhängigen Datenschutzaufsichtsbehörden des Bundes und der 16 Bundesländer. Sie entwickelt gemeinsame Positionen und Orientierungshilfen zum Datenschutz.
Ihre Veröffentlichungen sind rechtlich nicht direkt bindend, aber faktisch richtungsweisend: Sie zeigen, wie Aufsichtsbehörden Technologien bewerten – und damit, was in Prüfungen als datenschutzkonform oder riskant angesehen wird.
Wer heute KI-Systeme einsetzt oder plant, sollte die DSK-Empfehlungen als verlässlichen Kompass nutzen – insbesondere im Umgang mit personenbezogenen Daten in Unternehmen, Kommunen und sensiblen Bereichen.
- Einheitliche Sicht der Aufsichtsbehörden
- Konkrete Leitlinien für KI & RAG-Systeme
- Hohe Praxisrelevanz für KMU und Verwaltung
Was ist RAG – kurz erklärt
RAG steht für Retrieval Augmented Generation. Vereinfacht gesagt: Ein KI-Sprachmodell wird mit einer intelligenten Suche in deinen eigenen Daten verbunden.
Bevor das Modell eine Antwort generiert, durchsucht ein Retrieval-Modul deine Dokumente, E-Mails oder Wissensdatenbanken und stellt relevante Inhalte bereit. Die KI nutzt dann diese aktuellen, internen Informationen zur Beantwortung – inklusive Quellenangaben.
Wichtig: Die Dokumente werden nicht dauerhaft ins Modell integriert. Sie bleiben in deiner Datenbank und können jederzeit geändert oder gelöscht werden. Dieser Ansatz bietet klare Vorteile für Datenschutz, Transparenz und die Ausübung von Betroffenenrechten.
- Semantische Suche statt Schlagwörter
- Antworten aus deinen echten Dokumenten
- Mit Quellenangaben nachvollziehbar verknüpft
Welche Chancen sieht die DSK in RAG-Systemen?
Die Orientierungshilfe zeigt: RAG-Systeme können ein wichtiger Baustein für datenschutzkonforme KI sein – wenn sie richtig umgesetzt werden. Insbesondere werden folgende Punkte positiv hervorgehoben:
Mehr Korrektheit
Antworten basieren auf konkreten Dokumenten statt nur auf Trainingswissen. Fehler können durch Aktualisieren deiner Quellen behoben werden.
Transparenz & Nachvollziehbarkeit
Quellenangaben ermöglichen es, jede Antwort zurückzuverfolgen – ein Pluspunkt für Compliance und Dokumentation.
Daten bleiben unter Kontrolle
Personenbezogene Daten verbleiben in eigenen Systemen. RAG nutzt sie, ohne sie dauerhaft ins Modell zu integrieren.
Rechte Betroffener umsetzbar
Löschst du ein Dokument, wirkt sich das unmittelbar auf künftige Antworten aus – anders als bei fix trainierten Modellen.
On-Premise realistisch
Kleinere, fokussierte Modelle plus RAG ermöglichen den Betrieb auf eigener Hardware – ohne Abhängigkeit von globalen Cloud-Anbietern.
Welche Risiken bleiben?
Die DSK macht klar: RAG ist kein Freifahrtschein. Einige Herausforderungen bleiben und müssen aktiv adressiert werden:
- Ein rechtswidrig trainiertes Basis-Sprachmodell bleibt problematisch – auch mit RAG.
- Zweckbindung: Personenbezogene Daten dürfen nur für den konkreten, vorher festgelegten Zweck verarbeitet werden.
- Risiko ungewollter Verknüpfung: Interne Daten können mit im Modell vorhandenem Wissen in Beziehung gesetzt werden.
- Black-Box-Effekt: Der genaue interne Entscheidungsweg des Modells bleibt technisch komplex.
Genau deshalb braucht es Systeme, die von Anfang an auf Datenschutz by Design, kontrollierbare Datenflüsse und transparente Architektur ausgelegt sind.
Wie KOSMO die DSK-Empfehlungen in die Praxis umsetzt
KOSMO wurde von Anfang an so entwickelt, dass er die nun veröffentlichten Anforderungen der DSK an RAG-Systeme erfüllt.
100 % Datenhoheit
KOSMO läuft wahlweise komplett On-Premise oder in zertifizierten Rechenzentren in Deutschland. Keine Datenübermittlung an US-Clouds oder Drittstaaten.
Europäische Sprachmodelle
Einsatz und Austausch von Modellen, die mit europäischen Anforderungen kompatibel sind – ohne Lock-in in proprietäre Blackbox-APIs.
RAG mit voller Kontrolle
Du definierst, welche Datenquellen angebunden werden. Keine Daten fließen ins Modelltraining – Änderungen wirken in Echtzeit.
Quellenangaben & Transparenz
Jede Antwort kann auf die zugrunde liegenden Dokumente zurückgeführt werden – ideal für Prüfungen, Audits und QS.
Rollenbasierte Zugriffe
Feingranulare Rechte: Mitarbeitende sehen nur Inhalte, für die sie berechtigt sind – technisch erzwungen durch das System.
Steuerbare Externe Daten
Websuche und externe Quellen sind optional und klar gekennzeichnet. Standard: interne, geprüfte Wissensbestände.
Open Source & konfigurierbar
Offene Komponenten und transparente Architektur ermöglichen technische und rechtliche Prüfung – ein echter Pluspunkt gegenüber Closed-Source-KI.
Ideal für KMU, Kommunen, Gesundheits- und Bildungsbereich, Energieversorger, Kammern und alle, die KI nutzen wollen, ohne die Kontrolle über ihre Daten zu verlieren.
