Direkt zum Inhalt

Was ist Computer Vision? Ein Leitfaden für Anfänger in der Bildanalyse

Entdecke, wie Computer Bilder und Videos sehen und wie künstliche Intelligenz und maschinelles Lernen das Computer Vision System revolutionieren.
Aktualisierte 23. Jan. 2025  · 8 Min. Lesezeit

Bilder sind überall. Wir leben in einer Zeit, in der Bilder und Videos viele Informationen enthalten, die manchmal schwer zu beschaffen sind. Aus diesem Grund ist die Bildanalyse, auch bekannt als Computer Vision, zu einer äußerst wertvollen Fähigkeit geworden, die in vielen Anwendungsfällen zum Einsatz kommt. 

Dieser Leitfaden führt in das interessante Gebiet der Computer Vision ein. Es erklärt die Grundlagen dieser wissenschaftlichen Disziplin, ihre wichtigsten Anwendungen und wie maschinelles Lernen und Deep Learning die Computer Vision revolutionieren und das Tor zu neuen, revolutionären Möglichkeiten öffnen.  

Was ist Computer Vision?

Einfach ausgedrückt ist Computer Vision ein Zweig der KI, der untersucht, wie Computer den Inhalt von digitalen Bildern und Videos sehen und verstehen können.  

Das ultimative Ziel der Computer Vision ist es, die Fähigkeiten des menschlichen Sehens in Maschinen nachzubilden. Doch während Menschen Netzhäute, Sehnerven und spezielle Teile ihres Gehirns nutzen, um visuelle Informationen zu sammeln und zu verarbeiten, läuft dieser Prozess bei Maschinen völlig anders ab. Um Maschinen das Sehen beizubringen, setzen wir stattdessen auf eine Vielzahl von technischen Komponenten, darunter:

  • Sensoren. Kameras und andere Geräte, die mit speziellen Sensoren ausgestattet sind, sind entscheidend für die Erfassung der visuellen Daten, die uns umgeben.  
  • Daten. Die meisten Menschen sind bereits mit Bild- und Videodaten und den damit verbundenen traditionellen Formaten vertraut, wie .jpg und .png für Bilder und .mov und .avi für Videos. Es ist jedoch erwähnenswert, dass die Bandbreite der Bilddaten viele Formen annehmen kann, z. B. Ansichten von mehreren Kameras, mehrdimensionale Daten von einem 3D-Scanner oder medizinische Scangeräte. 
  • Algorithmen. Wie bei jeder anderen Datenanalyse ist ein vorheriger Schritt vor der Analyse die Datenaufbereitung. Es gibt unzählige Techniken und Algorithmen, die Computer-Vision-Forscher entwickelt haben, um Bilddaten zu bereinigen und aufzubereiten, z. B. durch Filterung, Größenänderung oder Bildnormalisierung. Wenn die visuellen Daten vorbereitet sind, wird es Zeit für den lustigen Teil. Mit dem Aufkommen des Deep Learning können wir leistungsstarke Deep-Learning-Modelle trainieren, die die menschlichen Fähigkeiten bei einer Vielzahl von Aufgaben schnell übertreffen, wie wir im nächsten Abschnitt sehen werden. 

Anwendungen von Computer Vision

Das Sehen ist ein wichtiger Sinn, den viele von uns jeden Tag für eine Vielzahl von Aufgaben nutzen. Vor diesem Hintergrund sollten wir nicht überrascht sein von den vielen realen Anwendungen, die es heute für Computer Vision gibt.

Nachfolgend findest du eine nicht erschöpfende Liste der wichtigsten Anwendungen von Computer Vision.

Objekterkennung

Bei vielen beliebten Computer-Vision-Anwendungen geht es darum, Dinge in Bildern zu erkennen. Ein gutes Beispiel sind selbstfahrende Autos. Hersteller von autonomen Autos verwenden mehrere Kameras, um Bilder von der Umgebung zu erfassen, damit ihre selbstfahrenden Autos Objekte, Fahrbahnmarkierungen und Verkehrsschilder erkennen und sicher fahren können. Wie funktioniert die Objekterkennung in der Praxis? Wir empfehlen dir dringend, unser Tutorial zur Objekterkennung mit dem YOLO-Algorithmus zu lesen.

Gesichtserkennung

Bei der Gesichtserkennung, die für Sicherheits- und Überwachungszwecke eingesetzt wird, werden wichtige Merkmale analysiert, um Personen zu identifizieren. Dazu werden neuronale Netze auf umfangreichen biometrischen Datenbanken trainiert, die es den Modellen ermöglichen, einzigartige Gesichtsmerkmale von Menschen zu erkennen. In unserem separaten Tutorial erfährst du, wie du die Gesichtserkennung mit Python durchführst.

Automatische Übersetzung

Mit Tools wie Google Translate können Nutzer/innen die Kamera eines Smartphones auf ein Schild in einer anderen Sprache richten und erhalten fast sofort eine Übersetzung des Schildes in ihrer bevorzugten Sprache.

Bilderzeugung

Computer-Vision-Anwendungen können nicht nur Bilder verstehen, sondern sind auch in der Lage, mit generativer KI realistische Bilder zu erzeugen. Das ist der Fall bei DALL-E, einem genAI-Modell, das Bilder aus Textbeschreibungen erstellt, oder bei Sora, das dasselbe tut, aber mit Videos. Ein weiteres Beispiel sind Deep Fakes. Ein Deep Fake ist eine Software, die verwendet wird, um Menschen in gefälschten Videos darzustellen, in denen sie eigentlich nicht vorkommen. Wenn man versteht, was ein menschliches Gesicht ausmacht, können Deep Fakes neue Gesichter erzeugen.

Bist du neugierig auf andere Anwendungen von Computer Vision? In unserem Artikel erfährst du mehr über 19 Computer Vision Projekte für Anfänger und Fortgeschrittene.

Computer Vision in der KI

Die einzigartigen Anwendungen der Computer Vision, die wir heute haben, wären ohne KI, insbesondere ohne Deep Learning-Modelle, nicht möglich. Um zu verstehen, warum das so ist, müssen wir zunächst wissen, was ein digitales Bild ist - die grundlegendste Informationseinheit in der Computer Vision. 

Ein digitales Bild besteht aus Hunderten, wenn nicht Tausenden von Pixeln, die Informationen über Farbe und Intensität enthalten. In Graustufenbildern kann die Intensität jedes Pixels durch eine Zahl zwischen 0 und 255 dargestellt werden.

Graustufenbilder.

Graustufenbilder.  Quelle: DataCamp

Im Gegensatz dazu werden farbige Bilder in der Regel im RGB-System gespeichert. RGB steht für Rot, Grün und Blau. Jedes Bild kann durch drei Raster dargestellt werden, eines für jeden Farbkanal. Das bedeutet, dass du für die Speicherung eines Farbbildes die dreifache Menge an Daten benötigst als für ein Graustufenbild.

Farbige Bilder 

Farbige Bilder. Quelle: DataCamp

Digitale Bilder können also als ein Bündel von Zahlen betrachtet werden. Vor nicht allzu langer Zeit fehlten uns noch die leistungsfähigen Werkzeuge, um Informationen aus Bildern zu verarbeiten und zu extrahieren. Das änderte sich Anfang der 2010er Jahre, als es Forschern des Deep Learning gelang, neuartige neuronale Netze zu entwickeln, die sich besonders gut für Computer Vision Aufgaben eignen.

Dank der Fortschritte im Deep Learning und der Fortschritte bei Grafikprozessoren, Cloud Computing und der großen Verfügbarkeit von Bilddaten können Datenpraktiker/innen heute leistungsstarke neuronale Netze trainieren, die komplexe Aufgaben im Bereich des Computer Vision erfüllen. 

Im Zuge des Booms der generativen KI können hochmoderne Bildsprachmodelle (Vision Language Models , VLM) sowohl visuelle als auch textuelle Daten verstehen und verarbeiten und ermöglichen so neue Aufgaben wie Bildunterschriften, die Beantwortung visueller Fragen und die Generierung von Text in Bildern.

Neugierig auf neuronale Netze? Schau dir unseren Kurs Einführung in Deep Learning mit Python an und fang noch heute an.

Neuronales Netzwerk für Computer Vision

Neuronales Netzwerk für Computer Vision. Quelle: NVIDIA

Unterschied zwischen Machine Vision und Computer Vision

Ein häufiges Missverständnis unter Neulingen auf diesem Gebiet ist der Unterschied zwischen maschinellem Sehen und Computer Vision. 

Maschinelles Sehen bezeichnet den Einsatz von Kameras, Sensoren und Algorithmen, die Computern und Robotern helfen, Bilder zu analysieren und fundierte Entscheidungen während des Fertigungsprozesses zu treffen. Die Anwendungen der industriellen Bildverarbeitung umfassen Aufgaben wie automatische Inspektion, Qualitätskontrolle und Roboterführung.

Der Begriff wird häufig in der Fertigung und in der Industrie verwendet und ist daher anwendungsspezifisch und enger gefasst als die Computer Vision, die ein breiteres Spektrum an Anwendungen in verschiedenen Branchen hat. Auch in Bezug auf die Komplexität ist die Verarbeitung und Interpretation von Bilddaten im Vergleich zum maschinellen Sehen oft komplexer.

Die Unterschiede zwischen maschinellem Sehen und Computer Vision kannst du in der folgenden Tabelle sehen: 

Aspekt

Maschinelles Sehen

Computer Vision

Definition

Einsatz von Kameras, Sensoren und Algorithmen, um Bilder zu analysieren und Entscheidungen zu treffen, oft in industriellen Umgebungen.

Ein Bereich der KI, der sich darauf konzentriert, Computer in die Lage zu versetzen, digitale Bilder und Videos zu interpretieren und zu verstehen.

Primäre Anwendungsfälle

Qualitätskontrolle, Fehlererkennung, Fließbandüberwachung und Roboterführung.

Objekterkennung, Gesichtserkennung, Bilderzeugung, autonome Fahrzeuge und medizinische Bildgebung.

Komplexität

Im Allgemeinen einfacher und spezifisch für die jeweilige Aufgabe.

Es handelt sich um eine komplexe Verarbeitung, bei der oft KI und Deep-Learning-Modelle zum Einsatz kommen.

Umfang

Eng gefasst, anwendungsspezifisch (vor allem Fertigung und industrielle Automatisierung).

breit gefächert und umfasst mehrere Branchen wie das Gesundheitswesen, den Einzelhandel, die Automobilindustrie und die Unterhaltungsindustrie.

Technologie Fokus

Kameras, Beleuchtung und Hardware für die Aufnahme und Analyse von Bildern in kontrollierten Umgebungen.

Algorithmen, neuronale Netze und große Datensätze für fortgeschrittenes Bildverständnis.

Beispiele

Automatisierte Inspektion von Leiterplatten, Steuerung von Roboterarmen in Fabriken.

Selbstfahrende Autos trainieren, Deep Fakes erstellen oder Krankheiten in medizinischen Scans erkennen.

Erste Schritte mit Computer Vision

Computer Vision ist eine der spannendsten und gefragtesten Disziplinen der KI. Wenn du bereit bist, in die Praxis einzusteigen, ist das DataCamp hier, um dir zu helfen. Wir arbeiten hart daran, Datenpraktikern wertvolle, aktuelle Kurse und spezielle Materialien anzubieten.

Wir empfehlen dir dringend, mit unserem Lernpfad Bildverarbeitung in Python zu beginnen. Dieser Lernpfad deckt die Grundlagen ab, von der Bildvorverarbeitung bis zum Deep Learning. Du beginnst mit Bildverbesserung und -wiederherstellung und gehst dann zu biomedizinischen Bildern über, um komplexere Bildtypen wie MRT-Scans und Röntgenbilder zu analysieren. Der Lernpfad schließt mit einem Kurs über Faltungsneuronale Netze ab, in dem du lernst, leistungsstarke Deep-Learning-Bildklassifizierer zu erstellen.

Für technische Ressourcen gibt es folgende Möglichkeiten:

Fazit

Wir hoffen, dass dir diese benutzerfreundliche Einführung in die Computer Vision gefallen hat. Das Feld ist voller Aufregung, denn jeden Tag kommen neue Computer Vision Anwendungen auf den Markt. Wenn du ein Spezialist für Computer Vision werden willst, ist der Lernpfad Bildverarbeitung in Python der ideale Einstieg. 


Javier Canales Luna's photo
Author
Javier Canales Luna
LinkedIn

Ich bin freiberufliche Datenanalystin und arbeite mit Unternehmen und Organisationen auf der ganzen Welt an Data-Science-Projekten zusammen. Ich bin auch Ausbilder für Data Science mit mehr als 2 Jahren Erfahrung. Ich schreibe regelmäßig datenwissenschaftliche Artikel in englischer und spanischer Sprache, von denen einige auf etablierten Websites wie DataCamp, Towards Data Science und Analytics Vidhya veröffentlicht wurden. Als Datenwissenschaftlerin mit einem Hintergrund in Politik- und Rechtswissenschaften ist es mein Ziel, an der Schnittstelle von Politik, Recht und Technologie zu arbeiten und die Macht der Ideen zu nutzen, um innovative Lösungen und Erzählungen voranzutreiben, die uns dabei helfen können, dringende Herausforderungen wie die Klimakrise anzugehen. Ich betrachte mich als Autodidakt, der ständig lernt und ein überzeugter Verfechter der Multidisziplinarität ist. Es ist nie zu spät, neue Dinge zu lernen.

Themen

Top DataCamp Kurse

Zertifizierung verfügbar

Kurs

Bildverarbeitung in Python

4 hr
47.1K
Lerne, Bilder nach Belieben zu bearbeiten, umzuwandeln und zu manipulieren.
Siehe DetailsRight Arrow
Kurs starten
Mehr anzeigenRight Arrow
Verwandt

Der Blog

Top 30 Generative KI Interview Fragen und Antworten für 2024

Dieser Blog bietet eine umfassende Sammlung von Fragen und Antworten zu generativen KI-Interviews, die von grundlegenden Konzepten bis hin zu fortgeschrittenen Themen reichen.
Hesam Sheikh Hassani's photo

Hesam Sheikh Hassani

15 Min.

Der Blog

Die 32 besten AWS-Interview-Fragen und Antworten für 2024

Ein kompletter Leitfaden zur Erkundung der grundlegenden, mittleren und fortgeschrittenen AWS-Interview-Fragen, zusammen mit Fragen, die auf realen Situationen basieren. Es deckt alle Bereiche ab und sorgt so für eine abgerundete Vorbereitungsstrategie.
Zoumana Keita 's photo

Zoumana Keita

30 Min.

Der Blog

Lehrer/innen und Schüler/innen erhalten das Premium DataCamp kostenlos für ihre gesamte akademische Laufbahn

Keine Hacks, keine Tricks. Schüler/innen und Lehrer/innen, lest weiter, um zu erfahren, wie ihr die Datenerziehung, die euch zusteht, kostenlos bekommen könnt.
Nathaniel Taylor-Leach's photo

Nathaniel Taylor-Leach

4 Min.

Der Blog

2022-2023 DataCamp Classrooms Jahresbericht

Zu Beginn des neuen Schuljahres ist DataCamp Classrooms motivierter denn je, das Lernen mit Daten zu demokratisieren. In den letzten 12 Monaten sind über 7.650 neue Klassenzimmer hinzugekommen.
Nathaniel Taylor-Leach's photo

Nathaniel Taylor-Leach

8 Min.

Der Blog

Die 20 besten Snowflake-Interview-Fragen für alle Niveaus

Bist du gerade auf der Suche nach einem Job, der Snowflake nutzt? Bereite dich mit diesen 20 besten Snowflake-Interview-Fragen vor, damit du den Job bekommst!
Nisha Arya Ahmed's photo

Nisha Arya Ahmed

20 Min.

Der Blog

Q2 2023 DataCamp Donates Digest

DataCamp Donates hat im zweiten Quartal 2023 über 20.000 Stipendien an unsere gemeinnützigen Partner vergeben. Erfahre, wie fleißige benachteiligte Lernende diese Chancen in lebensverändernde berufliche Erfolge verwandelt haben.
Nathaniel Taylor-Leach's photo

Nathaniel Taylor-Leach

Mehr anzeigenMehr anzeigen