Firmen-Wissen zugänglich machen

Die Theorie steht. Jetzt wird's praktisch: Wie machen Sie Ihr reales Firmenwissen — verteilt über Confluence, SharePoint, E-Mails, PDFs und Datenbanken — für AI zugänglich?

Schritt 1: Wissensquellen inventarisieren

Erstellen Sie eine Übersicht aller Wissensquellen:

Quelle	Typ	Umfang	Aktualisierung	Priorität
Confluence	Wiki	~2.000 Seiten	Wöchentlich	Hoch
SharePoint	Dateien	~10.000 Docs	Monatlich	Hoch
E-Mail-Archive	Unstrukturiert	~500.000	Täglich	Mittel
Interne DB	Strukturiert	~50 Tabellen	Echtzeit	Hoch
Slack/Teams	Chat	~1M Nachrichten	Echtzeit	Niedrig

Schritt 2: Konnektoren aufbauen

Confluence

Atlassian REST API für Seiteninhalt und Metadaten
CQL (Confluence Query Language) für gezielte Extraktion
Webhooks für inkrementelle Updates

SharePoint / OneDrive

Microsoft Graph API
Delta-Queries für inkrementelle Syncs
Berechtigungsfilter übernehmen (wichtig für Compliance!)

E-Mails

IMAP/Exchange-Connector
Nur interne E-Mails und Threads mit Business-Relevanz
PII-Erkennung und -Maskierung vor Ingestion

Datenbanken

SQL-Views als definierte Schnittstelle
Change Data Capture für Echtzeit-Updates
Schema-Dokumentation als zusätzlichen Kontext einbetten

Schritt 3: Data Pipeline

Quelle → Extraktion → Bereinigung → PII-Filter → Chunking → Embedding → Vektor-DB
           ↓                                                              ↓
        Scheduler                                                    Metadata-Store
     (täglich/wöchentlich)                                        (Quelle, Datum, Rechte)

Schritt 4: Zugriffskontrolle

Kritisch: Die RAG-Pipeline darf nur Informationen zurückgeben, die der anfragende Nutzer auch sehen darf.

Berechtigungen aus Quellsystemen übernehmen
Zur Abfrage-Zeit gegen Nutzer-Rollen filtern
Regelmäßige Audits der Zugriffsmuster

Häufige Fallen

❌ Alles auf einmal migrieren (statt iterativ vorgehen)
❌ Berechtigungen ignorieren
❌ Veraltete Dokumente nicht markieren
❌ Keine Feedback-Schleife mit den Nutzern

Praxis-Tipp: Starten Sie mit einer einzigen Quelle (z. B. Confluence) und 10 Power-Usern. Sammeln Sie Feedback, optimieren Sie, dann skalieren Sie auf weitere Quellen. Ein RAG-System lebt von iterativer Verbesserung.