Lektion 6 von 6·11 Min Lesezeit

Firmen-Wissen zugänglich machen

Die Theorie steht. Jetzt wird's praktisch: Wie machen Sie Ihr reales Firmenwissen — verteilt über Confluence, SharePoint, E-Mails, PDFs und Datenbanken — für AI zugänglich?

Schritt 1: Wissensquellen inventarisieren

Erstellen Sie eine Übersicht aller Wissensquellen:

QuelleTypUmfangAktualisierungPriorität
ConfluenceWiki~2.000 SeitenWöchentlichHoch
SharePointDateien~10.000 DocsMonatlichHoch
E-Mail-ArchiveUnstrukturiert~500.000TäglichMittel
Interne DBStrukturiert~50 TabellenEchtzeitHoch
Slack/TeamsChat~1M NachrichtenEchtzeitNiedrig

Schritt 2: Konnektoren aufbauen

Confluence

  • Atlassian REST API für Seiteninhalt und Metadaten
  • CQL (Confluence Query Language) für gezielte Extraktion
  • Webhooks für inkrementelle Updates

SharePoint / OneDrive

  • Microsoft Graph API
  • Delta-Queries für inkrementelle Syncs
  • Berechtigungsfilter übernehmen (wichtig für Compliance!)

E-Mails

  • IMAP/Exchange-Connector
  • Nur interne E-Mails und Threads mit Business-Relevanz
  • PII-Erkennung und -Maskierung vor Ingestion

Datenbanken

  • SQL-Views als definierte Schnittstelle
  • Change Data Capture für Echtzeit-Updates
  • Schema-Dokumentation als zusätzlichen Kontext einbetten

Schritt 3: Data Pipeline

Quelle → Extraktion → Bereinigung → PII-Filter → Chunking → Embedding → Vektor-DB
           ↓                                                              ↓
        Scheduler                                                    Metadata-Store
     (täglich/wöchentlich)                                        (Quelle, Datum, Rechte)

Schritt 4: Zugriffskontrolle

Kritisch: Die RAG-Pipeline darf nur Informationen zurückgeben, die der anfragende Nutzer auch sehen darf.

  • Berechtigungen aus Quellsystemen übernehmen
  • Zur Abfrage-Zeit gegen Nutzer-Rollen filtern
  • Regelmäßige Audits der Zugriffsmuster

Häufige Fallen

  • ❌ Alles auf einmal migrieren (statt iterativ vorgehen)
  • ❌ Berechtigungen ignorieren
  • ❌ Veraltete Dokumente nicht markieren
  • ❌ Keine Feedback-Schleife mit den Nutzern

Praxis-Tipp: Starten Sie mit einer einzigen Quelle (z. B. Confluence) und 10 Power-Usern. Sammeln Sie Feedback, optimieren Sie, dann skalieren Sie auf weitere Quellen. Ein RAG-System lebt von iterativer Verbesserung.