Lektion 1 von 5·10 Min Lesezeit

Was ist Computer Vision?

Computer Vision (CV) gibt Maschinen die Fähigkeit, visuelle Informationen zu verstehen und zu interpretieren — Bilder, Videos, 3D-Scans und Live-Streams. In 2026 ist CV keine Zukunftstechnologie mehr, sondern ein reifes Werkzeug mit konkretem Business-Impact.

Bildklassifikation

Das Grundproblem

Bildklassifikation beantwortet eine einfache Frage: "Was ist auf diesem Bild?"

  • Binary Classification: Gut/Schlecht, Defekt/OK, Katze/Hund
  • Multi-Class: Produkt A / Produkt B / Produkt C / Unbekannt
  • Multi-Label: Ein Bild kann mehrere Labels haben (z. B. "Outdoor + Sonnenuntergang + Berge")

Wie es funktioniert

Moderne Bildklassifikation nutzt Convolutional Neural Networks (CNNs) und zunehmend Vision Transformers (ViT):

  1. Feature Extraction: Das Netzwerk lernt, visuelle Merkmale zu erkennen (Kanten, Texturen, Formen, Objekte)
  2. Hierarchische Abstraktion: Niedrige Ebenen = Kanten; Hohe Ebenen = komplexe Objekte
  3. Klassifikation: Softmax-Layer ordnet eine Wahrscheinlichkeit pro Klasse zu

State of the Art 2026: Modelle wie DINOv2, EVA-02, und SigLIP erreichen auf ImageNet über 90 % Top-1-Accuracy. Für Custom-Domains reichen oft 100–500 gelabelte Bilder für ein Fine-Tuning mit 95 %+ Genauigkeit.

Business-Anwendungen

  • Produkterkennung: Automatische Kategorisierung im E-Commerce
  • Schadenserkennung: Versicherungs-Claims automatisch bewerten
  • Medical Imaging: Hautkrebs-Screening, Röntgenbild-Analyse
  • Landwirtschaft: Pflanzenkrankheiten per Drohnenbild erkennen

Object Detection

Über Klassifikation hinaus

Object Detection beantwortet: "Was ist wo auf dem Bild?" — mit Bounding Boxes um jedes erkannte Objekt.

Algorithmen:

  • YOLO (You Only Look Once): Echtzeit-Detection, aktuell YOLOv9/v10
  • DETR (Detection Transformer): Transformer-basiert, sehr genau
  • RT-DETR: Kombiniert DETR-Genauigkeit mit YOLO-Geschwindigkeit

Geschwindigkeit: YOLOv10 verarbeitet bis zu 600 Bilder pro Sekunde auf moderner GPU-Hardware — ideal für Echtzeit-Anwendungen.

Business-Anwendungen

  • Einzelhandel: Regal-Monitoring (welche Produkte fehlen?)
  • Logistik: Paket-Zählung und -Sortierung
  • Sicherheit: Personenzählung, Zutrittskontrolle
  • Automotive: Fußgänger-, Fahrzeug- und Schildererkennung

Segmentation

Pixel-genaue Erkennung

Segmentation geht noch weiter: Jedes Pixel wird einer Klasse zugeordnet.

Typen:

  • Semantic Segmentation: Alle Pixel einer Klasse (z. B. alle "Straßen"-Pixel)
  • Instance Segmentation: Unterscheidet einzelne Objekte derselben Klasse (Person 1, Person 2, Person 3)
  • Panoptic Segmentation: Kombiniert beide Ansätze

State of the Art: SAM 2 (Segment Anything Model 2, Meta) kann jedes Objekt in Bildern und Videos segmentieren — ohne spezifisches Training. Ein Foundation Model für Segmentation.

Business-Anwendungen

  • Medizin: Tumore pixel-genau in MRT-Bildern markieren
  • Autonomes Fahren: Fahrbahn, Fußweg, Hindernisse trennen
  • Fertigung: Defekte auf Oberflächen exakt lokalisieren
  • Agrar: Unkraut von Nutzpflanzen unterscheiden für Precision Spraying

Entwicklung und Deployment

Der CV-Stack 2026

  • Frameworks: PyTorch (dominant), TensorFlow, ONNX für Deployment
  • Plattformen: Roboflow, Encord, V7 für Labeling und Training
  • Edge Deployment: NVIDIA Jetson, Intel OpenVINO, Apple CoreML
  • Cloud APIs: Google Vision AI, AWS Rekognition, Azure Computer Vision

Kernaussage: Computer Vision ist kein Forschungsprojekt mehr. Mit vortrainierten Modellen und modernen Tools können Unternehmen in Wochen — nicht Jahren — produktionsreife CV-Lösungen bauen.

📝

Quiz

Frage 1 von 3

Was unterscheidet Instance Segmentation von Semantic Segmentation?