Course
Eine Data Science Roadmap für 2024
Egal, ob du Student/in bist, ein/e angehende/r Datenwissenschaftler/in oder ein/e Berufstätige/r, der/die sich beruflich verändern möchte: Wenn du ein/e erfahrene/r Datenwissenschaftler/in werden willst, musst du einen Weg gehen. Das ist nicht immer einfach, denn die Data-Science-Landschaft ist inzwischen sehr breit gefächert und es gibt verschiedene Arten von Data-Science-Fachleuten mit unterschiedlichen Tätigkeiten und Fähigkeiten.
Dieser Artikel gibt dir einen Überblick über die Data-Science-Landschaft, damit du herausfinden kannst, welche Berufe zu deinen Ambitionen passen. Darüber hinaus gibt es Hinweise darauf, wie man in dieser Landschaft verschiedene Rollen einnehmen oder sich weiterentwickeln kann, und beantwortet Fragen wie: Welche Fähigkeiten solltest du entwickeln und mit welchen Methoden solltest du dich vertraut machen?
Lass uns mit unserer Data Science Roadmap beginnen.
In Kürze: Ein Fahrplan für die Datenwissenschaft
In diesem Artikel tauchen wir tief in alle Aspekte der Roadmap ein. Wenn du jedoch eine kurze Zusammenfassung der Gliederung suchst, findest du sie unten:
- Data Science verstehen: Begreife die Grundlagen der Datenwissenschaft und ihre breite Landschaft.
- Vertrautheit mit dem Projektlebenszyklus: Beginne mit einem Geschäftsproblem, entwickle Vorhersagemodelle und setze sie in der Produktion ein, wobei du die Beiträge der verschiedenen Rollen (Data Analyst, Data Scientist, Machine Learning Engineer, Data Engineer, Data Architect) verstehst.
- Datenanalyse und -visualisierung: Führe explorative Datenanalysen (EDA) durch und beherrsche Tools zur Datenvisualisierung (z. B. matplotlib in Python, ggplot2 in R, PowerBI, Tableau).
- Grundlage in Statistik und Mathematik: Lerne deskriptive und inferentielle Statistik und verstehe wichtige mathematische Konzepte, insbesondere für Anwendungen des maschinellen Lernens.
- Fortgeschrittene Themen: Maschinelles Lernen und KI: Trainiere und bewerte Modelle, beschäftige dich mit Deep Learning und verstehe KI-Feedbackschleifen.
- Praktische Anwendungen und Projekte: Führe Projekte mit öffentlichen oder eigenen Daten durch, nimm an Hackathons teil und entwickle ein Portfolio, um dein Fachwissen unter Beweis zu stellen.
- Berufsnavigation: Finde Rollen, die deinen Fähigkeiten entsprechen, bereite dich auf relevante Fragen im Vorstellungsgespräch vor und halte dich über Branchentrends und Ressourcen auf dem Laufenden.
Wenn du diesen Fahrplan befolgst, kannst du dich effektiv in der Data-Science-Landschaft bewegen, wichtige Fähigkeiten aufbauen und eine lohnende Karriere in diesem Bereich verfolgen.
1. Die Grundlagen der Datenwissenschaft verstehen
Was ist Datenwissenschaft?
Um den Kontext einer Data Science Roadmap zu verstehen, ist es wichtig, eine Vorstellung davon zu haben, was Data Science ist. Wir haben einen ausführlichen Leitfaden mit Definitionen und Erklärungen zu Data Science, aber für diesen Artikel betrachten wir Data Science als die Gesamtheit der Aktivitäten, die darauf abzielen, Probleme mit Hilfe von Daten zu lösen.
Ein sehr häufig auftretendes Problem ist "Ich habe eine Frage, kenne aber die Antwort nicht". Wenn du also eine SQL-Abfrage in einer Verkaufsdatenbank durchführst, um herauszufinden, wie viel Umsatz ein Unternehmen im letzten Monat gemacht hat, bist du ein Datenwissenschaftler!
Oft sind die Probleme/Lösungen komplexer und erfordern eine größere Vielfalt an Fähigkeiten. Um dieses breite Spektrum an Data Science-Rollen und -Fähigkeiten in dieser Data Science-Roadmap diskutieren zu können, werden wir den Lebenszyklus eines Data Science-Projekts als Portmanteau verwenden. Auf diese Weise können wir die verschiedenen Aktivitäten und Rollen abbilden und die Grundlagen für die Entwicklung der Datenwissenschaft schaffen.
2. Vertraut werden mit dem Lebenszyklus von Data Science-Projekten
Data Science-Projekte beginnen meist mit einer geschäftlichen Frage oder einem Problem. Ein Problem löst eine Initiierungsphase aus, in der eine Reihe möglicher Lösungen definiert und die anfängliche Machbarkeit bewertet wird. Eine erste Datenerhebung oder eine explorative Datenanalyse der verfügbaren Daten wird durchgeführt, um zu sehen, was möglich ist und was nicht. Sind die Daten reichhaltig genug? Enthält es genügend Funktionen?
Initiierung und Erkundung
Sobald alle Ampeln auf Grün stehen, beginnen wir mit der Entwicklung eines Vorhersagemodells. Das Modell nutzt die Eingaben, um die Ergebnisse vorherzusagen. Zunächst könnte es sich dabei um ein einmaliges Modell handeln, das mit einer k-fachen Kreuzvalidierung trainiert, getestet und validiert wird (eine Technik des maschinellen Lernens, mit der beurteilt wird, wie gut ein Modell bei ungesehenen Daten abschneiden wird). Das ist die Arbeit, die typischerweise von klassischen Datenwissenschaftlern gemacht wird. Sobald das Modell gut genug funktioniert, ist es an der Zeit, es in die Produktion zu überführen und in die bestehende Infrastruktur einzubauen, wo die Leistung überwacht und das Modell bei Bedarf neu trainiert wird.
Jede dieser Phasen erfordert unterschiedliche Fähigkeiten. In der Einführungsphase müssen die Mitarbeiter über Geschäftssinn verfügen und mit Datenumwandlung, -bereinigung, deskriptiver Statistik und grundlegender Inferenzstatistik vertraut sein. Diese Arbeit kann von einem Datenanalysten und/oder einem Datenwissenschaftler erledigt werden.
Modellentwicklung und Produktion
In der Modellierungsphase müssen Vorhersagemodelle erstellt werden. Einfache Modelle wie Regressionen können von einem Datenanalysten erstellt werden, aber wenn es komplexer wird, brauchst du einen Datenwissenschaftler, der ein Modell mit einem bestehenden Algorithmus erstellt, oder sogar einen Ingenieur für maschinelles Lernen, der bestehende Algorithmen ändert oder neue erstellt.
Beim Einsatz und der Produktion des Modells betrittst du den Bereich des Machine Learning Engineers oder des Data Engineers. Im Gegensatz zu den früheren Phasen gibt es nicht unbedingt eine enge Verbindung zum Geschäft, und die Aufgabe bestand darin, eine Pipeline um das Vorhersagemodell herum zu erstellen und zu überwachen, um den richtigen Zielsystemen zuverlässige Ergebnisse zu liefern.
Während des gesamten Prozesses sollten alle Daten an den richtigen Stellen mit den richtigen Metainformationen verfügbar sein, was die Aufgabe des Datenarchitekten ist. Wenn neue Daten aufgenommen oder bestehende Daten in neue Informationen umgewandelt werden, stellen sie ebenfalls sicher, dass die Daten an der richtigen Stelle landen.
Rollenintegration und funktionsübergreifende Zusammenarbeit
Die Art und Weise, wie die verschiedenen Rollen in den verschiedenen Phasen des Lebenszyklus ihren Beitrag leisten, ist in der folgenden Abbildung dargestellt. Da die verschiedenen Rollen in unterschiedlichen Phasen ihren Beitrag leisten, erfordern sie unterschiedliche Fähigkeiten.
Rollen am Anfang des Lebenszyklus erfordern mehr Geschäftssinn und weniger Technik, während spätere Phasen weniger Geschäftssinn und mehr Technik und Algorithmusoptimierung erfordern. Zur Veranschaulichung: Als Datenwissenschaftler kannst du mit einer suboptimalen Rechenleistung auskommen, um den Wert und die Leistung deines Modells zu zeigen. Sobald du aber mit der Produktion von Modellen betraut bist, musst du in der Lage sein, den Rechenaufwand zu optimieren, um sicherzustellen, dass deine Pipeline (kosten-)effizient ist.
Der Beitrag der verschiedenen Data Science-Rollen in einem Data Science-Projekt (DAn - Data Analyst, DS - Data Scientist, MLE - Machine Learning Engineer, DE - Data Engineer, DAr - Data Architect - Image by Author
Es ist wichtig zu wissen, dass die Abgrenzung zwischen den Rollen nicht streng ist. Viele Datenwissenschaftler denken bereits an die richtigen Quell-/Zielsysteme und die Recheneffizienz und berücksichtigen diese in ihrem Code. Ein Ingenieur für maschinelles Lernen könnte feststellen, dass bestimmte Ansätze zur Generierung von Merkmalen die Modellleistung verbessern könnten. Ein Datenanalyst hat vielleicht gute Ratschläge, wo im Datenkatalog die für den Datenarchitekten erstellten Merkmale gespeichert werden sollen. Mit anderen Worten: Alle Rollen sollten bis zu einem gewissen Grad über die Arbeit der anderen Rollen Bescheid wissen, aber sie müssen die Aufgaben der anderen nicht bis ins Detail verstehen.
Wichtige Fähigkeiten und Werkzeuge
Was die Fähigkeiten und Werkzeuge angeht, die du brauchst, gibt es eine klare Grundlage. Unabhängig davon, an welcher Stelle im Lebenszyklus eines Data-Science-Projekts du mitarbeitest, brauchst du ein Grundverständnis für Mathematik und Statistik, kollaborative Softwareentwicklung und Datenmanipulation. Im Großen und Ganzen besteht der Anfang einer jeden Data Science Roadmap aus:
- Datenmanipulation (z.B. Extract-Transform-Load, wie in SQL, Python oder R),
- (Statistische) Datenanalyse (wie sie in der deskriptiven und einigen korrelativen Statistiken gelehrt wird),
- Maschinelles Lernen (wie z.B. überwachtes Lernen in Python oder R), und
- Versionierung für kollaborative Softwareentwicklung (wie sie in Git gelehrt wird).
Es gibt verschiedene Arten von Data-Science-Rollen mit unterschiedlichen Qualifikationsanforderungen: Ein Data Analyst braucht tiefere SQL-Kenntnisse als ein Data Engineer. Ein Data Scientist muss sich mit maschinellem Lernen besser auskennen als ein Data Architect. Hier teilt sich also die Data Science Roadmap: Je nachdem, wo deine Ambitionen in der Data Science-Landschaft liegen, musst du unterschiedliche Fähigkeiten erlernen. In den folgenden Abschnitten werden die verschiedenen Zweige der Roadmap beschrieben, die du dir vorstellen kannst.
3. Tiefer in die Datenanalyse und -visualisierung eintauchen
Explorative Datenanalyse (EDA)
Unabhängig davon, wie weit du mit deiner Data Science Roadmap bist, ob du ein erfahrener Veteran bist oder gerade erst anfängst, beginnen alle Data Science Projekte mit dem Verständnis deiner Daten.
Um die Durchführbarkeit deines Projekts zu beurteilen, ist es wichtig, deine Daten genau zu verstehen. Das beginnt bei grundlegenden Fragen wie "Welche Variablen habe ich?" und "Wie viele Beobachtungen habe ich?" und endet bei komplexeren Fragen wie "Welche Beziehungen bestehen zwischen den Variablen?
Oft können die Ergebnisse einer EDA selbst die Antwort auf die Fragen deiner Stakeholder sein. Wenn sie richtig visualisiert und zusammenhängend dargestellt werden, z.B. in einem Dashboard, können die Ergebnisse einer einfachen Datenanalyse genutzt werden, um komplexe Fragen zu beantworten. Dies hängt jedoch von der Fähigkeit zur Datenvisualisierung ab.
Aber wenn du durch deine EDA zeigst, dass es zum Beispiel verschiedene Segmente von Website-Besuchern gibt, hast du auf datenwissenschaftliche Weise einen Mehrwert geschaffen.
Es gibt verschiedene Möglichkeiten, deine Ergebnisse zu visualisieren. Entweder in Visualisierungsbibliotheken/-paketen in der von dir verwendeten Sprache (wie ggplot2 in R und matplotlib in Python) oder in speziellen Datenvisualisierungstools (wie PowerBI, Tableau oder sogar Excel)
Beherrschung der Datenvisualisierung
Gerade wenn wir uns mehr auf die Aufgaben eines Datenanalysten konzentrieren, ist ein tieferes Verständnis der Datenvisualisierung hilfreich.
In den meisten Data-Science-Rollen können Visualisierungen dazu dienen, Annahmen durch Streudiagramme und Histogramme zu überprüfen, aber wenn die Analyse selbst das Ergebnis ist, wie z. B. bei einem Datenanalysten, wirst du auf Situationen stoßen, in denen du die Analyseergebnisse so gestalten willst, dass sie leicht zu verstehen sind.
Denke an maßgeschneiderte Hausstile, neue Visualisierungen oder Infografiken, die als Input für eine Entscheidungseinheit dienen. In solchen Situationen ist es hilfreich, eine Datenvisualisierung zu erstellen, die praktisch ein Kunstwerk ist. Datenvisualisierung verstehen ist ein Kurs, der dir hilft, deine Datenvisualisierungskompetenzen zu vertiefen.
Eine Data Science Roadmap, visualisiert als Stadtplan, zeigt die gemeinsamen Grundlagen aller Data Science-Rollen und die spezifischen Fähigkeiten der verschiedenen Rollen. - Bild vom Autor
4. Aufbau einer Grundlage in Statistik und Mathematik
Deskriptive und inferentielle Statistik
Eine weitere erste Station auf der Data Science Roadmap ist die Statistik. Einige grundlegende statistische Konzepte sollten für jede Art von Datenwissenschaftler/in selbstverständlich sein.
Du musst jederzeit in der Lage sein, deine Daten und Untergruppen in deinen Daten zu beschreiben. Wie hoch ist das Durchschnittseinkommen in deinem Datensatz? Wie hoch ist das Mindesteinkommen und das Höchsteinkommen? Was ist die Standardabweichung, oder was sind andere Maße für die Streuung? Und wenn du kategorische Werte hast, wie viele eindeutige Werte gibt es dann? Welches ist das am häufigsten vorkommende? Treten alle Werte gleich häufig auf oder sind sie weniger gleichmäßig verteilt?
Die Beantwortung von Fragen mit deskriptiven Analysen über Gruppen/Untergruppen kann bereits wertvolle Erkenntnisse liefern, aber meistens musst du die Beziehung zwischen den Variablen in deinem Datensatz betrachten und zu inferenziellen Statistiken übergehen.
Der herausfordernde und interessante Teil der Inferenzstatistik sind die verschiedenen Arten von kategorialen und numerischen Werten und die Beziehungen zwischen ihnen. Solche Beispiele sind:
- Korrelationen; die Beziehung zwischen numerischen Werten, z. B. "Wie hängen Alter und Einkommen zusammen?".
- Die Beziehung zwischen kategorischem und numerischem Wert, um die Frage "Wie ist das Einkommen von Männern und Frauen im Vergleich" zu untersuchen. (mit dem Geschlecht als kategorialem Eingangswert und dem Einkommen als numerischem Zielwert),
- Oder andersherum: "Sind ältere Menschen häufiger geschieden?" (mit Alter als numerischem Eingabewert und geschieden als kategorialem Zielwert).
- Beziehungen zwischen kategorialen Variablen, "Sind Männer häufiger geschieden als Frauen?"
Um diese Fragen beantworten zu können, musst du die verschiedenen Arten von statistischen Tests kennen, vom einfachsten T-Test bis hin zu komplexeren Methoden wie multivariaten linearen Regressionen oder Zeitreihenanalysen.
Du kannst relevante Kurse besuchen, um dein Verständnis von Statistik zu vertiefen: Python, R, und sogar unabhängig von Tools. Diese Kurse bieten eine gute Grundlage, um mit dem maschinellen Lernen zu arbeiten. Wenn du die Beziehung zwischen Prädiktoren und Zielvariablen statistisch verstehst, verstehst du auch die Prinzipien der Algorithmen, die zur Erstellung von Modellen des überwachten Lernens verwendet werden.
Wie tief du in diesen Bereich eindringen willst, hängt wiederum davon ab, wo auf der Data Science Roadmap du hinwillst. Wenn du Datenanalyst/in werden willst, reicht es vielleicht, wenn du die Grundlagen der Statistik verstehst. Datenarchitekten brauchen vielleicht gar keine statistischen Kenntnisse. Aber Datenwissenschaftler/innen und Ingenieur/innen für maschinelles Lernen werden mit Sicherheit auf Situationen stoßen, in denen sie sich auf ihr statistisches Fachwissen verlassen müssen.
Mathematische Konzepte für die Datenwissenschaft
In der Datenwissenschaft geht es um Zahlen und Berechnungen, daher spielt die Mathematik eine große Rolle. Ein fortgeschrittener Mathematikabschluss ist zwar keine zwingende Voraussetzung für den Einstieg in die Datenwissenschaft, aber Kenntnisse in Algebra und Infinitesimalrechnung helfen dir, eine Reihe von Methoden zu verstehen, die in der Datenwissenschaft häufig verwendet werden. Die meisten Ansätze zur Dimensionalitätsreduktion (wie PCA und Matrixfaktorisierung) beruhen auf der Linearen Algebra und viele Optimierungsalgorithmen (wie der Gradientenabstieg) auf der Infinitesimalrechnung.
Und genau wie bei der Statistik und der Datenanalyse ist dieses Wissen nicht unbedingt für alle Aufgaben im Bereich Data Science relevant. Wenn du Ingenieur für maschinelles Lernen werden willst, führt kein Weg an der Mathematik vorbei. Aber die meisten anderen Berufe - selbst Datenwissenschaftler - kommen vielleicht ohne Algebra- und Kalkulationskenntnisse aus.
Um mehr über algebraische Konzepte zu erfahren und sie zu verstehen, besuche unseren Kurs Lineare Algebra für Data Science in R
5. Fortgeschrittene Themen erforschen: Maschinelles Lernen und KI
Einführung in das maschinelle Lernen
Maschinelles Lernen ist die Kunst, Software zu entwickeln, die aus Daten lernt. Es ist wirklich das Brot und Butter für Datenwissenschaftler, Ingenieure für maschinelles Lernen und sogar Dateningenieure. Der Teil deiner Lösung, der den erwarteten Umsatz deines Unternehmens auf der Grundlage deines Bestands und deiner Preise angibt? Das wird durch maschinelles Lernen erreicht!
Das Mindestmaß an Wissen, das du als Datenwissenschaftler/in brauchst, ist die Fähigkeit, Modelle zu trainieren und zu bewerten. In bestimmten Situationen möchtest du vielleicht tiefer eindringen und lernen, wie du bestehende Algorithmen veränderst oder sogar neue Algorithmen schreibst, und damit den Bereich des Machine Learning Engineer betreten.
Du hast viele Freiheiten, wie du dein maschinelles Lernen durchführst. Du kannst entweder alles selbst programmieren (in Python oder R oder C# oder Java, mit den entsprechenden Bibliotheken), du kannst lokale Softwarepakete verwenden (wie Weka und RapidMiner) oder du kannst Cloud-Lösungen nutzen (wie Databricks und AWS SageMaker). Das macht es zwar schwierig zu entscheiden, was du lernen sollst, aber das Fachwissen, das du entwickelst, lässt sich ganz leicht übertragen. Eine gute Idee, um zu entscheiden, welches Toolkit für maschinelles Lernen du verwenden möchtest, ist es, entweder von einer Sprache auszugehen, die du bereits kennst, oder zu prüfen, welche Tools in der Branche, für die du dich interessierst, verwendet werden.
Du kannst mit unserem Karrierepfad "Machine Learning Scientist with Python" beginnen, der viele der Grundlagen abdeckt, die du für deinen Berufseinstieg brauchst.
Eintauchen in Deep Learning und KI
Die Beziehung zwischen maschinellem Lernen, Deep Learning und KI ist umstritten.
Als ich maschinelles Lernen unterrichtete, war meine erste Vorlesung immer eine lebhafte Klassendebatte über die Aussage "Maschinelles Lernen ist eine Form von KI". Auch wenn die beiden Begriffe manchmal synonym verwendet werden, bin ich der festen Überzeugung, dass maschinelles Lernen KI ermöglicht, aber das bedeutet nicht, dass man KI geschaffen hat, wenn man maschinelles Lernen einsetzt.
Damit eine Datenanwendung zur KI wird, muss es eine Rückkopplungsschleife geben, in der die Anwendung oder das Modell aus ihren Ergebnissen lernt. In diesem Fall ist ein überwachter Lernalgorithmus nicht unbedingt KI. Wenn du den Output des Modells an das Modell zurückmeldest (wie beim Reinforcement Learning), erhältst du KI, da du ein System hast, das automatisch aus seinen richtigen und falschen Vorhersagen weiterlernt.
Deep Learning ist nicht viel mehr als neuronale Netze auf Steroiden. Interessant für Anwendungen ist, dass Deep Learning sehr greifbare Ergebnisse ermöglicht, da diese Modelle Text, Bilder und Sprache ausgeben können. Wenn du an einem Data-Science-Projekt arbeitest, bei dem es darauf ankommt, dass die Modelle etwas ausgeben, das von menschlichen Endnutzern wahrgenommen oder erlebt werden kann, kann das Verständnis von Deep Learning ein echter Vorteil sein. Ein guter Einstiegskurs ist Introduction to Deep Learning in Python.
6. Praktische Anwendungen und Real-World-Projekte
Umsetzung von Data-Science-Projekten
Kein Data Science-Projekt lebt in einem Vakuum. Wenn du auf deinem Weg vorankommst, ist es wichtig, dass du die Artefakte, die du produzierst, aufbewahrst und präsentierst. Ein Teil der Arbeit eines Datenwissenschaftlers ist es, zu zeigen, was du kannst.
Für mich ist das Spannendste an der Datenwissenschaft, dass man nicht viel braucht. Du brauchst nur einen öffentlichen Datensatz und etwas Kreativität, um dir eine interessante Frage auszudenken und diese dann mithilfe der Daten zu beantworten. Du kannst auch einfach auf DataLab oder Kaggle gehen und mit der Arbeit an den Aufgaben und/oder Wettbewerben beginnen und dich von anderen Einsendungen inspirieren lassen.
Alternativ kannst du auch deine eigenen Daten sammeln und verwenden. Ich habe meine von Strava heruntergeladenen Fahrraddaten analysiert und Daten aus dem Immobilienbereich ausgewertet, um mir bei meiner Suche nach dem Wohnungsmarkt zu helfen.
Das Wichtigste ist, dass du dokumentierst, was du tust. Versuche, deine Arbeit reproduzierbar zu machen, erkläre die Schritte, die du unternommen hast, teile deinen Code und die Ergebnisse deiner Analyse oder deines Systems. Wer weiß? Vielleicht ist deine Praxisübung genau die Lösung für das Problem von jemandem.
Beispielhafte Projekte
Meiner Meinung nach sind die interessantesten Projekte die, die aus deiner eigenen Leidenschaft und deinen Interessen entstehen. Wenn du einen Datensatz von einem Ort verwendest, den du gut kennst, stehen die Chancen gut, dass du einzigartige und interessante Fragen stellen kannst. Du kennst den Bereich und du kennst die Daten... Aber wenn du wirklich bei Null anfängst, gibt es eine Menge Dinge, an denen du arbeiten kannst, z.B. Dating-Anwendungen, Handel, Sport.
Auf DataCamp findest du außerdem eine große Auswahl an Data Science-Projekten, die es dir ermöglichen, dich mit der Art der Arbeit vertraut zu machen. Egal, ob du mit einigen Datenanalyse-Projekten beginnst oder an speziellen Python-Projekten arbeitest, du kannst dich bis zum maschinellen Lernen und sogar zu KI-Projekten hocharbeiten. Es gibt viele Möglichkeiten, um dir den Einstieg zu erleichtern.
Wenn du trotz allem keine Möglichkeit findest, den Einstieg zu finden, kann die Teilnahme an Hackathons eine weitere nützliche Alternative sein. Viele Forschungsinstitute und größere Unternehmen veranstalten regelmäßig Hackathons.
Diese Hackathons haben oft das Ziel, dass Teams von Datenwissenschaftlern an einem relevanten Problem arbeiten und bieten so die Möglichkeit, mit anderen Datenwissenschaftlern zusammenzuarbeiten und von ihnen zu lernen. So kannst du ein Netzwerk aufbauen und von potenziellen Arbeitgebern wahrgenommen werden, während du gleichzeitig nützliche Erfahrungen sammelst.
Portfolio-Entwicklung
Heutzutage kann man sich kaum einen Datenwissenschaftler vorstellen, der kein GitHub, DataCamp-Portfolio, eine Medium-Seite oder einen Blog mit Code hat. Ein Portfolio ist in der Datenwissenschaft genauso wichtig wie in anderen kreativen Branchen.
Wenn du frühere Projekte vorweisen kannst, ist das eine gute Möglichkeit, andere davon zu überzeugen, dass du das Zeug dazu hast. Deshalb lohnt es sich, deine Arbeit in einem Portfolio zu dokumentieren. Alternativ kannst du deine Arbeit und deine Ansichten in Form von Blogbeiträgen oder sogar in akademischen Publikationen dokumentieren. In unserem Beitrag über die Präsentation deiner Datenkompetenz in einem Portfolio findest du einige Anregungen.
Egal, wofür du dich entscheidest, achte darauf, dass du einen vorzeigbaren Überblick über die Projekte behältst, an denen du gearbeitet hast.
7. Navigieren in der Karrierelandschaft der Datenwissenschaft
Karrieremöglichkeiten in der Datenwissenschaft
In diesem Beitrag haben wir die verschiedenen Fähigkeiten, Kenntnisse und Werkzeuge beleuchtet, die einem Datenwissenschaftler zur Verfügung stehen. Aber wo soll man anfangen, wenn man sich für einen Beruf entscheidet?
Meiner Meinung nach hängt das wirklich davon ab, wo deine Ambitionen liegen. Dieser Beitrag sollte deutlich gemacht haben, dass ich nicht glaube, dass es einen einheitlichen Fahrplan für Data Science gibt.
Natürlich baut jede Rolle in der Datenwissenschaft auf einem Fundament aus Statistik, Datenmanipulation, maschinellem Lernen und Softwaretechnik auf. Aber abgesehen davon kommt es wirklich darauf an.
Ein Datenwissenschaftler nutzt Algorithmen, während ein Ingenieur für maschinelles Lernen Algorithmen verändert oder erstellt. Dem Datenwissenschaftler reicht es also, viele Algorithmen zu kennen und zu wissen, wann er sie anwenden muss, während der Ingenieur für maschinelles Lernen die mathematischen Konzepte hinter den Algorithmen wirklich verstehen muss.
Ähnlich verhält es sich, wenn du deine Energie aus dem Teilen von Analyseergebnissen schöpfst, wie z.B. ein Datenwissenschaftler oder Datenanalyst, dann wirst du wahrscheinlich mehr von gründlichen Kenntnissen in Datenvisualisierung und EDA profitieren, als wenn du sehr gut in der Datenmodellierung bist.
Die Roadmap der Datenwissenschaft hat also einige Abzweigungen, und du kannst selbst entscheiden, wie tief du in die verschiedenen Zweige der Datenwissenschaft einsteigen willst.
Vorbereitung auf Interviews in der Datenwissenschaft
Trotz der Unterschiede zwischen den Rollen wirst du in jedem Vorstellungsgespräch auf Hard- und Soft Skills getestet. Diese Tests sind je nach Stelle, die du antrittst, unterschiedlich.
Wenn du dich nicht für eine Stelle als Ingenieur/in für maschinelles Lernen oder Datenverarbeitung bewirbst, werden dir wahrscheinlich keine Fragen wie "Wie würden Sie Algorithmus A oder B optimieren?" gestellt. Deshalb ist es wichtig, dass du dich auf die Fähigkeiten und damit auf die Fragen konzentrierst, die von dir erwartet werden und die du bereit bist, zu bearbeiten. Wenn du Fragen zu Themen bekommst, mit denen du nicht vertraut bist, kann das ein Zeichen dafür sein, dass die Rolle nicht zu dir passt.
Denn in diesem relativ neuen Bereich, vor allem in Unternehmen, in denen Daten relativ neu sind, gibt es viele falsche Vorstellungen darüber, was Datenwissenschaftler/innen sind oder was sie tun.
Ich weiß, dass ich mich auf eine Stelle als Datenwissenschaftler beworben habe, bei der der Interviewer die Begriffe Datenwissenschaftler und Ingenieur für maschinelles Lernen synonym verwendet hat. Es ist also gut möglich, dass der Personalverantwortliche einen Fehler gemacht hat, wenn dir Fragen gestellt werden, die du nicht beantworten kannst. Kaum jemals sollte ein Dateningenieur gefragt werden, wie er z.B. das Stakeholder-Management in einem Projekt handhaben würde.
Zum Glück gibt es verschiedene Ressourcen, die dir bei der Vorbereitung auf Vorstellungsgespräche helfen, je nachdem, für welche Stelle du dich bewirbst:
- 28 Top-Interviewfragen für Datenwissenschaftler für alle Ebenen
- Interviewfragen für Datenanalysten: Wie du dich auf ein Interview mit einem Datenanalysten vorbereitest
- Die 23 besten Python Interview Fragen & Antworten
- 80 Top SQL Interview Fragen und Antworten [2024]
- 25 wichtige Power BI-Interview-Fragen für jedes Niveau
- Die 25 wichtigsten Interviewfragen zum maschinellen Lernen für 2024
- Die 21 besten Fragen, Antworten und Beispiele für ein Data Engineering Interview
8. Fortbildung und lebenslanges Lernen
Mit Trends auf dem Laufenden bleiben
Der Bereich der Datenwissenschaft ist sehr dynamisch und es ist wichtig, mit den neuesten Trends auf dem Laufenden zu bleiben. Mit ChatGPT wurde die generative KI zum Mainstream und es gibt heute kaum noch einen Datenwissenschaftler, der nicht zumindest eine Ahnung von Token Embeddings und/oder Aufmerksamkeitsmodellen hat. Auch die Einführung von MLOps macht es schwer vorstellbar, dass ein Dateningenieur die Modellleistung und -abweichung manuell überprüft.
Mit diesem dynamischen Wachstum werden verschiedene Aspekte der KI wichtig. Derzeit wird den ethischen und rechtlichen Aspekten der KI viel Aufmerksamkeit geschenkt, wie mehrere akademische und politische Debatten zeigen, die unter anderem zu neuen Regeln und Vorschriften geführt haben.
Unabhängig von den Entscheidungen der Regierungen in Bezug auf KI will niemand für den nächsten Skandal in der Datenwissenschaft verantwortlich sein. Die einzige Möglichkeit, dies zu vermeiden, ist, sich der ethischen und rechtlichen Grenzen bewusst zu sein. Oder noch besser: Als Fachmann für Datenwissenschaft kannst du zu diesen Entwicklungen beitragen, indem du deinen Hintergrund nutzt und dir eine Meinung bildest und vertrittst.
Es gibt viele Möglichkeiten, um auf dem Laufenden zu bleiben. Natürlich gibt es das DataCamp als Plattform, aber du kannst auch anfangen, nach inspirierenden Data Science-Praktikern in deinem Bereich zu suchen und ihnen zu folgen. Finde heraus, ob sie Blogs, X- oder Medium-Beiträge oder etwas anderes haben, wo du einen Einblick bekommen kannst, wie sie die sich verändernde und dynamische Landschaft sehen.
Erweiterte Lernressourcen
Wie wir in diesem Artikel gezeigt haben, gibt es viele Ressourcen, die jedem zur Verfügung stehen, der in den Bereich der Datenwissenschaft einsteigen oder sich weiterentwickeln möchte. Wenn du wirklich nah an der Quelle sein willst, kannst du auch auf Fachkonferenzen wie NeurIPS, ICML oder KDD gehen. Diese und mehr findest du auf unserer Liste der Top Data Science-Konferenzen 2024.
Fazit und nächste Schritte
Obwohl es viele Stationen auf dem Weg der Datenwissenschaft gibt, gibt es nicht nur einen einzigen Weg der Datenwissenschaft. Um sich in der Data-Science-Landschaft zurechtzufinden, brauchst du 1) eine Vorstellung von der Landschaft (die du hoffentlich aus diesem Beitrag gewonnen hast) und 2) eine Vorstellung von deinen Stärken, Schwächen und Interessen, damit du entscheiden kannst, was du machen willst.
Wenn du diese hast, kannst du dich auf diesen Artikel verlassen, der dich in die richtige Richtung schubst und dir zeigt, auf welche Fähigkeiten du in deiner Ausbildung den Schwerpunkt legen solltest. Zum Glück gibt es einige hilfreiche Ressourcen, die dir den Einstieg erleichtern, wie z.B. die DataCamp-Karriereschienen, die dir die Fähigkeiten vermitteln, die du brauchst, um verschiedene Berufe zu erkunden:
Data Science Roadmap FAQs
Welches sind die häufigsten Herausforderungen, mit denen Datenwissenschaftler/innen während des Projektzyklus konfrontiert werden?
Datenwissenschaftlerinnen und -wissenschaftler stehen oft vor Herausforderungen wie Problemen mit der Datenqualität, der Integration von Daten aus verschiedenen Quellen, der Auswahl der richtigen Algorithmen, der Gewährleistung der Interpretierbarkeit von Modellen und dem Umgang mit rechnerischen Einschränkungen. Außerdem kann es eine Herausforderung sein, die Ergebnisse an nicht-technische Interessengruppen zu kommunizieren und die Projekte auf die Unternehmensziele abzustimmen.
Wie kann ich entscheiden, welche Rolle im Bereich Data Science (Data Analyst, Data Scientist, Machine Learning Engineer, Data Engineer, Data Architect) am besten zu mir passt?
Berücksichtige deine Interessen und Stärken. Wenn du Spaß an der Visualisierung von Daten und dem Erzählen von Geschichten hast, könnte ein Job als Datenanalyst zu dir passen. Wenn du dich für die Erstellung von Modellen und die Analyse von Daten interessierst, solltest du in Erwägung ziehen, Data Scientist zu werden. Für diejenigen, die gerne programmieren und Algorithmen optimieren, ist eine Stelle als Machine Learning Engineer ideal. Wenn du dich lieber mit Datenpipelines und der Infrastruktur beschäftigst, solltest du dich mit Data Engineering befassen. Wenn du dich für die Gestaltung von Datensystemen und -architekturen interessierst, könnte die Rolle des Datenarchitekten die beste sein.
Wie kannst du dich am besten über die neuesten Trends in der Datenwissenschaft informieren?
Folge einflussreichen Datenwissenschaftlern und Praktikern auf Plattformen wie LinkedIn, X und Medium. Nimm an Data-Science-Foren und -Communities wie dem DataCamp teil und besuche Data-Science-Konferenzen wie Radar. Abonniere außerdem Data Science-Newsletter und -Blogs wie diesen und besuche regelmäßig Online-Kurse, um deine Kenntnisse auf dem neuesten Stand zu halten.
Wie wichtig ist Fachwissen in der Datenwissenschaft, und wie kann ich es erwerben?
Fachwissen ist wichtig, um den Kontext deiner Daten zu verstehen und fundierte Entscheidungen zu treffen. Erwerbe Fachwissen, indem du an Projekten mit Bezug zu bestimmten Branchen arbeitest, branchenspezifische Literatur liest und mit Experten in diesen Bereichen zusammenarbeitest. Praktika, Networking und die Teilnahme an Branchenkonferenzen können ebenfalls zum Aufbau von Fachwissen beitragen.
Wie kann ich potenziellen Arbeitgebern meine Fähigkeiten im Bereich Data Science zeigen, wenn ich gerade erst anfange?
Baue ein starkes Portfolio auf, indem du an Data-Science-Projekten arbeitest, an Wettbewerben teilnimmst und zu Open-Source-Projekten beiträgst. Erstelle ein DataLab-Portfolio, um deinen Code zu präsentieren, schreibe Blogbeiträge über deine Projekte und baue eine Online-Präsenz auf Plattformen wie LinkedIn auf. Praktika und Freiwilligenarbeit für Data-Science-Projekte können ebenfalls praktische Erfahrungen vermitteln.
Beginne deine Reise in die Datenwissenschaft noch heute!
Course
Data Science for Business
Track