Lektion 4 von 6·10 Min Lesezeit

Data Security & Privacy

LLMs verarbeiten und generieren Text — und Text enthält oft personenbezogene Daten, Geschäftsgeheimnisse und vertrauliche Informationen. Datensicherheit in AI-Systemen erfordert spezifische Maßnahmen, die über klassische Verschlüsselung hinausgehen.

PII Leakage Prevention

Das Problem

LLMs können persönliche Daten auf mehreren Wegen leaken:

  • Memorization: Das Modell hat PII aus Trainingsdaten memoriert und gibt sie bei passenden Prompts wieder
  • In-Context Leakage: PII aus dem aktuellen Kontext (z. B. RAG-Dokumente) wird in Antworten eingebettet
  • Cross-Session Leakage: Bei fehlerhafter Session-Isolation sehen Nutzer Daten anderer Nutzer
  • Log Exposure: PII in Prompts landet in Logs, Monitoring-Tools und Analytics

Schutzmaßnahmen

Vor dem Modell (Input):

  • PII-Detection mit Named Entity Recognition (NER) — Namen, E-Mails, Telefonnummern, IBANs erkennen
  • Redaction: PII durch Platzhalter ersetzen ("[NAME]", "[EMAIL]")
  • Pseudonymisierung: Konsistente Ersetzung (Max Müller → Person_A) für Kontexterhalt

Nach dem Modell (Output):

  • Identische PII-Detection auf der Ausgabe
  • Differential Privacy: Mathematische Garantie, dass einzelne Datenpunkte nicht extrahierbar sind
  • Confidence Filtering: Antworten mit hoher PII-Wahrscheinlichkeit blockieren

Data Classification für AI

Klassifikationsstufen

StufeBeschreibungAI-Nutzung
PublicÖffentlich verfügbare DatenAlle Modelle, inkl. Cloud-APIs
InternalInterne, nicht-sensible DatenCloud-APIs mit DPA, Self-hosted
ConfidentialGeschäftsgeheimnisse, FinanzdatenNur Self-hosted oder Private Cloud
RestrictedPII, Gesundheitsdaten, ZahlungsdatenSelf-hosted mit zusätzlichen Kontrollen

Datenfluss-Kontrolle

  • Data Loss Prevention (DLP): Automatische Erkennung und Blockierung sensibler Daten im AI-Datenfluss
  • Tagging: Jedes Dokument im RAG-System erhält ein Klassifikations-Tag
  • Access Control: RAG-Ergebnisse werden nach Nutzerrolle gefiltert

Verschlüsselung und Secure RAG

Encryption at Rest

  • Vektor-Datenbanken: Embedding-Vektoren verschlüsselt speichern (AES-256)
  • Dokument-Speicher: Quelldokumente mit at-rest Encryption
  • Model Weights: Modellgewichte auf verschlüsselten Volumes

Encryption in Transit

  • TLS 1.3 für alle API-Kommunikation
  • mTLS zwischen internen Services (Model Server ↔ API Gateway ↔ RAG Service)
  • Encrypted Embeddings: Embedding-Anfragen verschlüsselt übertragen

Secure RAG Architecture

  • Document-Level ACLs: Jedes Dokument hat Zugriffsrechte — das RAG-System respektiert sie
  • Query Rewriting: User-Query wird bereinigt, bevor sie die Vektor-Datenbank erreicht
  • Result Filtering: Ergebnisse werden nach Nutzerberechtigung gefiltert
  • Citation Verification: Jede Aussage wird auf das Quelldokument zurückgeführt

Differential Privacy

Das Konzept

Differential Privacy garantiert mathematisch, dass die Anwesenheit oder Abwesenheit eines einzelnen Datenpunkts das Modellergebnis nicht signifikant beeinflusst.

Mechanismen:

  • Noise Injection: Kontrolliertes Rauschen zu Modellausgaben hinzufügen
  • DP-SGD: Differentially Private Stochastic Gradient Descent beim Training
  • Privacy Budget (ε): Quantifiziert den Grad des Datenschutzes — niedrigeres ε = mehr Privatsphäre

Praktische Anwendung

  • Aggregierte Analysen: "Wie viele Kunden haben Produkt X gekauft?" — Antwort mit DP-Rauschen
  • Federated Learning: Modelle lokal trainieren, nur Gradienten (mit DP) zentral aggregieren
  • Synthetic Data: Differentially Private synthetische Daten generieren für Entwicklung und Testing

Grundsatz: Behandeln Sie jeden Prompt, jede Antwort und jeden Kontext-Chunk als potenziell sensibel. Die Kosten einer Data Breach übersteigen die Kosten von Datenschutzmaßnahmen um das 10- bis 100-Fache.