Was ist Computer Vision?

Computer Vision (CV) gibt Maschinen die Fähigkeit, visuelle Informationen zu verstehen und zu interpretieren — Bilder, Videos, 3D-Scans und Live-Streams. In 2026 ist CV keine Zukunftstechnologie mehr, sondern ein reifes Werkzeug mit konkretem Business-Impact.

Bildklassifikation

Das Grundproblem

Bildklassifikation beantwortet eine einfache Frage: "Was ist auf diesem Bild?"

Binary Classification: Gut/Schlecht, Defekt/OK, Katze/Hund
Multi-Class: Produkt A / Produkt B / Produkt C / Unbekannt
Multi-Label: Ein Bild kann mehrere Labels haben (z. B. "Outdoor + Sonnenuntergang + Berge")

Wie es funktioniert

Moderne Bildklassifikation nutzt Convolutional Neural Networks (CNNs) und zunehmend Vision Transformers (ViT):

Feature Extraction: Das Netzwerk lernt, visuelle Merkmale zu erkennen (Kanten, Texturen, Formen, Objekte)
Hierarchische Abstraktion: Niedrige Ebenen = Kanten; Hohe Ebenen = komplexe Objekte
Klassifikation: Softmax-Layer ordnet eine Wahrscheinlichkeit pro Klasse zu

State of the Art 2026: Modelle wie DINOv2, EVA-02, und SigLIP erreichen auf ImageNet über 90 % Top-1-Accuracy. Für Custom-Domains reichen oft 100–500 gelabelte Bilder für ein Fine-Tuning mit 95 %+ Genauigkeit.

Business-Anwendungen

Produkterkennung: Automatische Kategorisierung im E-Commerce
Schadenserkennung: Versicherungs-Claims automatisch bewerten
Medical Imaging: Hautkrebs-Screening, Röntgenbild-Analyse
Landwirtschaft: Pflanzenkrankheiten per Drohnenbild erkennen

Object Detection

Über Klassifikation hinaus

Object Detection beantwortet: "Was ist wo auf dem Bild?" — mit Bounding Boxes um jedes erkannte Objekt.

Algorithmen:

YOLO (You Only Look Once): Echtzeit-Detection, aktuell YOLOv9/v10
DETR (Detection Transformer): Transformer-basiert, sehr genau
RT-DETR: Kombiniert DETR-Genauigkeit mit YOLO-Geschwindigkeit

Geschwindigkeit: YOLOv10 verarbeitet bis zu 600 Bilder pro Sekunde auf moderner GPU-Hardware — ideal für Echtzeit-Anwendungen.

Business-Anwendungen

Einzelhandel: Regal-Monitoring (welche Produkte fehlen?)
Logistik: Paket-Zählung und -Sortierung
Sicherheit: Personenzählung, Zutrittskontrolle
Automotive: Fußgänger-, Fahrzeug- und Schildererkennung

Segmentation

Pixel-genaue Erkennung

Segmentation geht noch weiter: Jedes Pixel wird einer Klasse zugeordnet.

Typen:

Semantic Segmentation: Alle Pixel einer Klasse (z. B. alle "Straßen"-Pixel)
Instance Segmentation: Unterscheidet einzelne Objekte derselben Klasse (Person 1, Person 2, Person 3)
Panoptic Segmentation: Kombiniert beide Ansätze

State of the Art: SAM 2 (Segment Anything Model 2, Meta) kann jedes Objekt in Bildern und Videos segmentieren — ohne spezifisches Training. Ein Foundation Model für Segmentation.

Business-Anwendungen

Medizin: Tumore pixel-genau in MRT-Bildern markieren
Autonomes Fahren: Fahrbahn, Fußweg, Hindernisse trennen
Fertigung: Defekte auf Oberflächen exakt lokalisieren
Agrar: Unkraut von Nutzpflanzen unterscheiden für Precision Spraying

Entwicklung und Deployment

Der CV-Stack 2026

Frameworks: PyTorch (dominant), TensorFlow, ONNX für Deployment
Plattformen: Roboflow, Encord, V7 für Labeling und Training
Edge Deployment: NVIDIA Jetson, Intel OpenVINO, Apple CoreML
Cloud APIs: Google Vision AI, AWS Rekognition, Azure Computer Vision

Kernaussage: Computer Vision ist kein Forschungsprojekt mehr. Mit vortrainierten Modellen und modernen Tools können Unternehmen in Wochen — nicht Jahren — produktionsreife CV-Lösungen bauen.

Was ist Computer Vision?

Bildklassifikation

Das Grundproblem

Wie es funktioniert

Business-Anwendungen

Object Detection

Über Klassifikation hinaus

Business-Anwendungen

Segmentation

Pixel-genaue Erkennung

Business-Anwendungen

Entwicklung und Deployment

Der CV-Stack 2026

Quiz