Data Security & Privacy

LLMs verarbeiten und generieren Text — und Text enthält oft personenbezogene Daten, Geschäftsgeheimnisse und vertrauliche Informationen. Datensicherheit in AI-Systemen erfordert spezifische Maßnahmen, die über klassische Verschlüsselung hinausgehen.

PII Leakage Prevention

Das Problem

LLMs können persönliche Daten auf mehreren Wegen leaken:

Memorization: Das Modell hat PII aus Trainingsdaten memoriert und gibt sie bei passenden Prompts wieder
In-Context Leakage: PII aus dem aktuellen Kontext (z. B. RAG-Dokumente) wird in Antworten eingebettet
Cross-Session Leakage: Bei fehlerhafter Session-Isolation sehen Nutzer Daten anderer Nutzer
Log Exposure: PII in Prompts landet in Logs, Monitoring-Tools und Analytics

Schutzmaßnahmen

Vor dem Modell (Input):

PII-Detection mit Named Entity Recognition (NER) — Namen, E-Mails, Telefonnummern, IBANs erkennen
Redaction: PII durch Platzhalter ersetzen ("[NAME]", "[EMAIL]")
Pseudonymisierung: Konsistente Ersetzung (Max Müller → Person_A) für Kontexterhalt

Nach dem Modell (Output):

Identische PII-Detection auf der Ausgabe
Differential Privacy: Mathematische Garantie, dass einzelne Datenpunkte nicht extrahierbar sind
Confidence Filtering: Antworten mit hoher PII-Wahrscheinlichkeit blockieren

Data Classification für AI

Klassifikationsstufen

Stufe	Beschreibung	AI-Nutzung
Public	Öffentlich verfügbare Daten	Alle Modelle, inkl. Cloud-APIs
Internal	Interne, nicht-sensible Daten	Cloud-APIs mit DPA, Self-hosted
Confidential	Geschäftsgeheimnisse, Finanzdaten	Nur Self-hosted oder Private Cloud
Restricted	PII, Gesundheitsdaten, Zahlungsdaten	Self-hosted mit zusätzlichen Kontrollen

Datenfluss-Kontrolle

Data Loss Prevention (DLP): Automatische Erkennung und Blockierung sensibler Daten im AI-Datenfluss
Tagging: Jedes Dokument im RAG-System erhält ein Klassifikations-Tag
Access Control: RAG-Ergebnisse werden nach Nutzerrolle gefiltert

Verschlüsselung und Secure RAG

Encryption at Rest

Vektor-Datenbanken: Embedding-Vektoren verschlüsselt speichern (AES-256)
Dokument-Speicher: Quelldokumente mit at-rest Encryption
Model Weights: Modellgewichte auf verschlüsselten Volumes

Encryption in Transit

TLS 1.3 für alle API-Kommunikation
mTLS zwischen internen Services (Model Server ↔ API Gateway ↔ RAG Service)
Encrypted Embeddings: Embedding-Anfragen verschlüsselt übertragen

Secure RAG Architecture

Document-Level ACLs: Jedes Dokument hat Zugriffsrechte — das RAG-System respektiert sie
Query Rewriting: User-Query wird bereinigt, bevor sie die Vektor-Datenbank erreicht
Result Filtering: Ergebnisse werden nach Nutzerberechtigung gefiltert
Citation Verification: Jede Aussage wird auf das Quelldokument zurückgeführt

Differential Privacy

Das Konzept

Differential Privacy garantiert mathematisch, dass die Anwesenheit oder Abwesenheit eines einzelnen Datenpunkts das Modellergebnis nicht signifikant beeinflusst.

Mechanismen:

Noise Injection: Kontrolliertes Rauschen zu Modellausgaben hinzufügen
DP-SGD: Differentially Private Stochastic Gradient Descent beim Training
Privacy Budget (ε): Quantifiziert den Grad des Datenschutzes — niedrigeres ε = mehr Privatsphäre

Praktische Anwendung

Aggregierte Analysen: "Wie viele Kunden haben Produkt X gekauft?" — Antwort mit DP-Rauschen
Federated Learning: Modelle lokal trainieren, nur Gradienten (mit DP) zentral aggregieren
Synthetic Data: Differentially Private synthetische Daten generieren für Entwicklung und Testing

Grundsatz: Behandeln Sie jeden Prompt, jede Antwort und jeden Kontext-Chunk als potenziell sensibel. Die Kosten einer Data Breach übersteigen die Kosten von Datenschutzmaßnahmen um das 10- bis 100-Fache.