Lektion 2 von 5·7 Min Lesezeit

Strukturierte vs. unstrukturierte Daten 🔧

Wussten Sie, dass 80–90 % aller Unternehmensdaten unstrukturiert sind? E-Mails, PDFs, Bilder, Meeting-Notizen — ein riesiger Datenschatz, der bis vor kurzem für AI praktisch unbrauchbar war. Dank moderner Modelle wie Claude Opus 4.6 und GPT-5 ändert sich das gerade grundlegend. Wer den Unterschied zwischen Datentypen versteht, trifft bessere Entscheidungen für AI-Projekte.


🎯 Was Sie in dieser Lektion lernen

  • Den Unterschied zwischen strukturierten, semi-strukturierten und unstrukturierten Daten sicher erkennen
  • Wie moderne AI-Modelle jeden Datentyp verarbeiten
  • Wann Sie Daten konvertieren sollten und wann AI direkt nutzen
  • Wie Sie eine praktische Data Preparation Pipeline aufbauen

Die drei Datentypen im Überblick 📂

Eigenschaft🗄️ Strukturiert🔀 Semi-strukturiert📄 Unstrukturiert
FormatTabellen, feste SpaltenFlexibles SchemaKein Schema
BeispieleSQL-Datenbanken, CSV, ExcelJSON, XML, E-Mails mit HeadernFreitext, Bilder, Videos, Audio
Anteil im Unternehmen10–20 %5–10 %80–90 %
Klassische AnalyseEinfach (SQL, Pivot)Mittel (Parser nötig)Schwer bis unmöglich
AI-AnalysePrognosen, KlassifikationExtraktion, KategorisierungNLP, Computer Vision, Multimodal

📖 Definition: Strukturierte Daten folgen einem festen Schema mit definierten Feldern und Typen. Unstrukturierte Daten haben kein vordefiniertes Format und erfordern Interpretation, um Informationen zu extrahieren.


Strukturierte Daten im Detail 🗄️

Daten in tabellarischer Form mit klaren Spalten und Datentypen:

  • 📊 Datenbanktabellen (SQL, PostgreSQL)
  • 📈 Excel-Spreadsheets und CSV-Dateien
  • 💼 CRM-Einträge (Salesforce, HubSpot)
  • 🏦 ERP-Daten (SAP, Oracle)

Typischer AI-Einsatz: Prognosen, Klassifikation, Anomalie-Erkennung, Clustering

💡 Tipp: Strukturierte Daten sind der einfachste Einstieg in AI. Wenn Ihre Daten bereits in einer sauberen Datenbank liegen, können Sie sofort mit Predictive Analytics starten.


Unstrukturierte Daten — der verborgene Schatz 📄

Der Großteil aller Unternehmensdaten hat kein festes Schema:

  • 📧 E-Mails, Chats und Support-Tickets
  • 📑 Dokumente (PDFs, Word, Verträge)
  • 🖼️ Bilder, Fotos und Scans
  • 🎥 Videos und Audio-Aufnahmen
  • 💬 Meeting-Transkripte und Notizen

Typischer AI-Einsatz: Zusammenfassung, Sentiment-Analyse, Informationsextraktion, semantische Suche, Dokumentenklassifikation


Wie moderne AI Datentypen verarbeitet 🤖

Die Fähigkeiten aktueller Modelle (Stand Februar 2026):

ModellStrukturiertSemi-strukturiertUnstrukturiertMultimodal
Claude Opus 4.6✅ Exzellent✅ Exzellent✅ Exzellent✅ Text, Bilder, Code
GPT-5✅ Exzellent✅ Exzellent✅ Exzellent✅ Text, Bilder, Audio, Video
Gemini 3.1✅ Sehr gut✅ Sehr gut✅ Exzellent✅ Nativ multimodal
Llama 4✅ Sehr gut✅ Gut✅ Sehr gut✅ Text, Bilder

🏢 Praxis-Beispiel: Eine Versicherung nutzt Claude Opus 4.6, um täglich 2.000 Schadensmeldungen (unstrukturierte PDFs und E-Mails) automatisch zu kategorisieren, Schlüsselinformationen zu extrahieren und in ihr strukturiertes CRM-System zu überführen. Bearbeitungszeit pro Fall: von 25 Minuten auf 3 Minuten.


Konvertieren oder direkt nutzen? 🔄

⚠️ Achtung: Nicht jede Konvertierung lohnt sich. Manchmal ist es effizienter, AI direkt auf unstrukturierte Daten anzusetzen, als diese erst aufwändig in Tabellenform zu bringen.

Konvertieren Sie, wenn:

  • 📊 Sie regelmäßige Analysen und Berichte brauchen
  • 🔁 Dieselben Daten wiederholt abgefragt werden
  • 🤖 Nachgelagerte Systeme strukturierte Eingaben erwarten

Nutzen Sie AI direkt, wenn:

  • 🔍 Sie einmalige Fragen an große Dokumentenmengen haben
  • 📝 Es um Zusammenfassung oder Übersetzung geht
  • ⚡ Geschwindigkeit wichtiger als Perfektion ist

Data Preparation Pipeline 🔧

Eine bewährte Pipeline für die Aufbereitung von Unternehmensdaten:

SchrittAktionTools
1️⃣ InventurDatenquellen identifizieren und katalogisierenData Catalog, Spreadsheet
2️⃣ ExtraktionDaten aus Quellsystemen exportierenAPIs, ETL-Tools, Python
3️⃣ BereinigungDuplikate, Fehler, Lücken behebenOpenRefine, Pandas, dbt
4️⃣ TransformationFormate vereinheitlichen, AnreichernPython, Power Query, SQL
5️⃣ ValidierungQualitätsprüfung gegen definierte StandardsGreat Expectations, eigene Scripts

🔑 Merke: Die Datenaufbereitung ist keine einmalige Aufgabe, sondern ein kontinuierlicher Prozess. Automatisieren Sie so viel wie möglich — das spart bei jedem AI-Projekt erneut Zeit.


📋 Zusammenfassung

  • 80–90 % aller Unternehmensdaten sind unstrukturiert — und dank LLMs erstmals nutzbar
  • Moderne Modelle wie Claude Opus 4.6 und GPT-5 verarbeiten alle Datentypen, einschließlich multimodaler Inhalte
  • Eine solide Data Preparation Pipeline ist die Grundlage für skalierbare AI-Projekte

🎯 Übung: Erstellen Sie eine Inventur Ihrer wichtigsten Datenquellen. Kategorisieren Sie jede Quelle als strukturiert, semi-strukturiert oder unstrukturiert — und notieren Sie, welche AI-Anwendungsfälle damit möglich wären.


Nächste Lektion: Bias in AI-Systemen erkennen — und warum kein Modell neutral ist.