Dokumentenverarbeitung / OCR
Unternehmen verarbeiten täglich hunderte Dokumente: Rechnungen, Verträge, Bestellungen, Formulare, Lieferscheine. 80 % davon sind unstrukturiert — PDF, Scan, Foto, E-Mail. Intelligent Document Processing (IDP) macht diese Daten maschinenlesbar.
Von OCR zu IDP
Die Evolution
- OCR (1990er): Text aus Bildern extrahieren — Buchstabe für Buchstabe
- Template OCR (2000er): Feste Koordinaten für bekannte Layouts
- ML-based OCR (2010er): Erkennung beliebiger Layouts mit Machine Learning
- IDP (2020er): Versteht Kontext, Bedeutung und Beziehungen zwischen Feldern
Wie IDP funktioniert
Moderne IDP-Systeme kombinieren mehrere AI-Technologien:
- Document Classification: Um welchen Dokumenttyp handelt es sich? (Rechnung, Vertrag, Ausweis)
- Layout Analysis: Wo sind Tabellen, Header, Footer, Logos, Stempel?
- Text Extraction: OCR mit Kontextverständnis (nicht nur Zeichen, sondern Wörter und Sätze)
- Entity Extraction: Relevante Felder extrahieren (Rechnungsnummer, Betrag, Datum, IBAN)
- Validation: Extrahierte Daten gegen Regeln prüfen (IBAN-Format, Plausibilität)
- Learning: Korrekturen durch Nutzer verbessern das Modell kontinuierlich
Rechnungen, Verträge, Formulare
Rechnungsverarbeitung
Der häufigste IDP-Use-Case. Extrahierte Felder:
- Lieferant, Rechnungsnummer, Datum, Fälligkeitsdatum
- Einzelpositionen (Beschreibung, Menge, Einzelpreis, Gesamtpreis)
- Nettobetrag, MwSt.-Satz, MwSt.-Betrag, Bruttobetrag
- IBAN, BIC, Zahlungsreferenz
- USt-IdNr., Bestellnummer
Genauigkeit 2026: 95–98 % für strukturierte Rechnungen, 88–94 % für unstrukturierte.
Vertragsanalyse
AI extrahiert aus Verträgen:
- Parteien: Wer sind die Vertragspartner?
- Laufzeit: Beginn, Ende, Kündigungsfristen
- Finanzen: Vergütung, Zahlungsbedingungen, Preisanpassungsklauseln
- Klauseln: Haftung, Gerichtsstand, Force Majeure, Datenschutz
- Risiken: Ungewöhnliche Klauseln, fehlende Standardklauseln
Tools: Kira Systems, Luminance, ContractPodAi — oder Custom mit LLM + Document AI.
Formulare
Strukturierte Formulare (Anträge, Fragebögen, Checklisten):
- Checkbox-Erkennung: Angekreuzt oder nicht?
- Handschrift-Erkennung: Ausgefüllte Textfelder lesen
- Unterschriften-Erkennung: Ist unterschrieben? Von wem? (nicht Verifikation)
- Stempel-Erkennung: Amtliche Stempel identifizieren
IDP-Plattformen 2026
| Plattform | Stärke | Preis |
|---|
| ABBYY Vantage | Branchenführer, viele Konnektoren | Enterprise |
| Rossum | Beste UX, schnelles Onboarding | Mid-Market |
| Google Document AI | Skalierbar, gute API | Pay-per-Use |
| Azure AI Document Intelligence | Microsoft-Integration | Pay-per-Use |
| Klippa | DSGVO-konform, EU-hosted | Mid-Market |
| Open Source (Donut, LayoutLM) | Volle Kontrolle | Nur Infrastruktur |
Implementierungs-Guide
Phase 1: Pilot (4–6 Wochen)
- Dokumenttyp wählen: Starten Sie mit dem häufigsten (meist Eingangsrechnungen)
- 50–100 Beispieldokumente sammeln und manuell labeln
- Modell trainieren oder Cloud-API konfigurieren
- Human-in-the-Loop: Jede Extraktion wird manuell geprüft und korrigiert
Phase 2: Optimierung (4–8 Wochen)
- Genauigkeit messen: Feld-für-Feld-Accuracy tracken
- Schwachstellen beheben: Mehr Training für Problemfelder
- Automatisierungsgrad erhöhen: Konfidenz-Schwelle definieren (z. B. > 95 % → auto-accept)
Phase 3: Skalierung
- Weitere Dokumenttypen hinzufügen
- ERP-Integration: Extrahierte Daten automatisch in SAP, DATEV, etc. buchen
- Monitoring: Dashboard für Verarbeitungsvolumen, Genauigkeit und Ausnahmen
Erfahrungswert: Der größte Aufwand liegt nicht in der Technik, sondern im Change Management. Mitarbeiter müssen verstehen, dass IDP ihre Arbeit erleichtert, nicht ersetzt.