Datenwissenschaftler/in vs. Dateningenieur/in
In der sich ständig weiterentwickelnden Landschaft der datengesteuerten Industrien haben sich die Rollen von Data Scientists und Data Engineers als unterschiedliche, aber miteinander verbundene Berufe herausgebildet. Obwohl beide Rollen eine entscheidende Rolle bei der Verwaltung und Wertschöpfung von Daten spielen, unterscheiden sich ihre Aufgaben, Fähigkeiten und Ziele oft.
Vor ein paar Jahren lag der Schwerpunkt auf der Gewinnung von Erkenntnissen aus Daten. Als die Branche jedoch reifer wurde, wurde die Bedeutung eines robusten Datenmanagements und das Sprichwort "Garbage In, Garbage Out" immer deutlicher.
Dieser Perspektivenwechsel hat die Rolle der Data Engineers in den Vordergrund gerückt und die symbiotische Beziehung zwischen ihnen und den Data Scientists betont.
Dieser Artikel befasst sich mit den Feinheiten dieser Rollen, mit ihren Aufgaben, ihrem Bildungshintergrund, den verwendeten Werkzeugen und mehr. Eine visuelle Darstellung findest du in unserer Infografik zum Thema "Data Engineering versus Data Science".
Entdecke deine Karriere mit maßgeschneidertem Lernen
Zuständigkeiten
Verantwortlichkeiten der Dateningenieure
Der Dateningenieur ist jemand, der Architekturen wie Datenbanken und große Verarbeitungssysteme entwickelt, konstruiert, testet und pflegt. Der Datenwissenschaftler hingegen ist jemand, der (große) Daten bereinigt, massiert und organisiert.
Du magst die Wahl des Verbs "massieren" besonders exotisch finden, aber es spiegelt den Unterschied zwischen Data Engineers und Data Scientists nur noch mehr wider.
Im Allgemeinen ist der Aufwand, den beide Parteien betreiben müssen, um die Daten in ein brauchbares Format zu bringen, sehr unterschiedlich.
Datentechniker/innen arbeiten mit Rohdaten, die menschliche, maschinelle oder instrumentelle Fehler enthalten. Die Daten sind möglicherweise nicht validiert und enthalten verdächtige Datensätze; sie sind unformatiert und können Codes enthalten, die systemspezifisch sind.
Die Dateningenieure müssen Wege zur Verbesserung der Zuverlässigkeit, Effizienz und Qualität der Daten empfehlen und manchmal auch umsetzen. Dazu müssen sie eine Vielzahl von Sprachen und Werkzeugen einsetzen, um die Systeme miteinander zu verbinden, oder sie müssen versuchen, neue Daten aus anderen Systemen zu beschaffen, damit die systemspezifischen Codes z.B. zu Informationen für die weitere Verarbeitung durch Datenwissenschaftler werden können.
Eng damit verbunden ist die Tatsache, dass die Dateningenieure sicherstellen müssen, dass die bestehende Architektur die Anforderungen der Datenwissenschaftler und der Stakeholder, also des Unternehmens, unterstützt.
Um die Daten an das Data-Science-Team weiterzugeben, muss das Data-Engineering-Team schließlich Prozesse für die Datenmodellierung, das Mining und die Produktion entwickeln.
In unserem vollständigen Artikel erfährst du mehr über die Aufgaben eines Datentechnikers.
Verantwortlichkeiten von Data Scientists
Data Scientists erhalten in der Regel bereits Daten, die eine erste Bereinigungs- und Manipulationsrunde durchlaufen haben und die sie in ausgefeilte Analyseprogramme und maschinelle Lern- und Statistikmethoden einspeisen können, um die Daten für die Verwendung in prädiktiven und präskriptiven Modellen vorzubereiten. Um Modelle zu erstellen, müssen sie natürlich Branchen- und Geschäftsfragen erforschen und große Datenmengen aus internen und externen Quellen nutzen, um Geschäftsanforderungen zu erfüllen. Dazu gehört manchmal auch das Erforschen und Untersuchen von Daten, um versteckte Muster zu finden.
Wenn die Ergebnisse akzeptiert werden, müssen sie sicherstellen, dass die Arbeit automatisiert wird, damit die Erkenntnisse täglich, monatlich oder jährlich an die Stakeholder des Unternehmens weitergegeben werden können.
Es ist klar, dass beide Parteien zusammenarbeiten müssen, um die Daten zu verarbeiten und Erkenntnisse für geschäftskritische Entscheidungen zu gewinnen. Die Kompetenzen überschneiden sich zwar, aber die beiden werden in der Branche allmählich unterschiedlicher: Während der Data Engineer mit Datenbanksystemen, Daten-APIs und Tools für ETL-Zwecke arbeitet und an der Datenmodellierung und der Einrichtung von Data-Warehouse-Lösungen beteiligt ist, muss der Data Scientist über Statistik, Mathematik und maschinelles Lernen Bescheid wissen, um Vorhersagemodelle zu erstellen.
Der Data Scientist muss sich mit verteilter Datenverarbeitung auskennen, da er Zugang zu den Daten haben muss, die vom Data-Engineering-Team verarbeitet wurden, aber er oder sie muss auch in der Lage sein, den Stakeholdern des Unternehmens Bericht zu erstatten: Ein Fokus auf Storytelling und Visualisierung ist unerlässlich.
Was das in Bezug auf den Fokus auf die Schritte des Data Science Workflows bedeutet, siehst du in der folgenden Abbildung:
Sprachen, Tools & Software
Diese unterschiedlichen Fähigkeiten spiegeln sich natürlich auch in den verschiedenen Sprachen, Werkzeugen und der Software wider, die beide verwenden. Die folgende Übersicht enthält sowohl kommerzielle als auch Open-Source-Alternativen.
Auch wenn die Tools der beiden Parteien stark davon abhängen, wie die Rolle im Unternehmenskontext konzipiert ist, wirst du oft sehen, dass Data Engineers mit Tools wie SAP, Oracle, Cassandra, MySQL, Redis, Riak, PostgreSQL, MongoDB, neo4j, Hive und Sqoop arbeiten.
Datenwissenschaftler/innen verwenden Sprachen wie SPSS, R, Python, SAS, Stata und Julia, um Modelle zu erstellen. Die beliebtesten Tools sind hier zweifelsohne Python und R. Wenn du mit Python und R für Data Science arbeitest, wirst du am häufigsten auf Pakete wie ggplot2 zurückgreifen, um erstaunliche Datenvisualisierungen in R zu erstellen, oder auf die Python-Bibliothek Pandas zur Datenmanipulation. Natürlich gibt es noch viele weitere Pakete, die bei der Arbeit an Data-Science-Projekten nützlich sind, z.B. Scikit-Learn, NumPy, Matplotlib, Statsmodels, etc.
In der Branche wirst du auch feststellen, dass kommerzielles SAS und SPSS gut funktionieren, aber auch andere Tools wie Tableau, Rapidminer, Matlab, Excel und Gephi finden ihren Weg in die Werkzeugkiste des Datenwissenschaftlers.
Du siehst wieder, dass sich einer der Hauptunterschiede zwischen Data Engineers und Data Scientists, nämlich die Betonung der Datenvisualisierung und des Storytellings, in den erwähnten Tools widerspiegelt.
Die Werkzeuge, Sprachen und Software, die beide Parteien gemeinsam haben, sind, wie du vielleicht schon vermutet hast, Scala, Java und C#.
Diese Sprachen sind nicht unbedingt sowohl bei Datenwissenschaftlern als auch bei Ingenieuren beliebt: Man könnte argumentieren, dass Scala bei Dateningenieuren beliebter ist, weil die Integration mit Spark besonders praktisch ist, um große ETL-Flows einzurichten.
Das Gleiche gilt für die Sprache Java: Im Moment ist sie bei Datenwissenschaftlerinnen und -wissenschaftlern sehr beliebt, aber insgesamt wird sie von Fachleuten im Alltag nicht häufig verwendet. Aber alles in allem wirst du diese Sprachen in den Stellenausschreibungen für beide Rollen finden. Das Gleiche gilt auch für Tools, die beide Parteien gemeinsam haben könnten, wie z.B. Hadoop, Storm und Spark.
Natürlich muss der Vergleich von Tools, Sprachen und Software in dem spezifischen Kontext gesehen werden, in dem du arbeitest, und wie du die jeweiligen Data-Science-Rollen interpretierst; Data Science und Data Engineering können in einigen spezifischen Fällen eng beieinander liegen, wobei der Unterschied zwischen Data-Science- und Data-Engineering-Teams tatsächlich so gering ist, dass die beiden Teams manchmal zusammengelegt werden.
Ob das eine gute Idee ist oder nicht, ist genug Stoff für eine andere Diskussion, die nicht in den Rahmen des heutigen Blogs passt.
Bildungshintergrund
Abgesehen von all dem haben Data Scientists und Data Engineers auch etwas gemeinsam: ihren Informatik-Hintergrund. Dieses Studiengebiet ist bei beiden Berufen sehr beliebt. Natürlich wirst du auch sehen, dass Data Scientists oft Ökonometrie, Mathematik, Statistik und Operations Research studiert haben. Sie haben oft ein bisschen mehr Geschäftssinn als Dateningenieure. Du siehst oft, dass Dateningenieure auch einen technischen Hintergrund haben, und meistens haben sie eine Ausbildung in Computertechnik.
Das heißt aber keineswegs, dass du keine Dateningenieure finden wirst, die sich durch ein vorheriges Studium Kenntnisse in Betriebswirtschaft und Geschäftssinn angeeignet haben.
Du musst wissen, dass die Data-Science-Branche im Allgemeinen aus Fachleuten mit ganz unterschiedlichem Hintergrund besteht: Es ist nicht ungewöhnlich, dass Physiker, Biologen oder Meteorologen ihren Weg in die Data Science finden. Andere haben sich für Data Science entschieden und kommen aus der Webentwicklung, der Datenbankverwaltung usw.
Gehälter & Einstellungen
Was die Gehälter angeht, so liegt das durchschnittliche Jahresgehalt von Data Scientists in den USA bei 103.000 Dollar und damit fast doppelt so hoch wie das nationale Durchschnittsgehalt. In den verschiedenen Ländern zeigt sich ein ähnlicher Trend: Das durchschnittliche Gehalt von Data Scientists liegt mindestens 30 % über dem nationalen Durchschnitt (in Indien ist es sogar noch deutlich höher!).
Das durchschnittliche Jahresgehalt für Data Engineers liegt in den USA bei 114.000 Dollar, und auch in anderen Ländern ist das durchschnittliche Gehalt eines Data Engineers dem eines Data Scientists sehr ähnlich.
Beide Rollen sind sehr gefragt. Zum Zeitpunkt der Erstellung dieses Artikels listet Indeed 12.000 Stellen für "Data Scientists" und 6.000 für "Data Engineers" in den USA auf. Führende Unternehmen wie Spotify, Meta, Amazon, Google und Microsoft stellen fast immer für beide Positionen ein.
Berufsaussichten
Wie bereits beschrieben, ist die Schaffung von Rollen und Titeln notwendig, um den sich ändernden Bedürfnissen gerecht zu werden, aber manchmal werden sie auch geschaffen, um sich von anderen Personalvermittlern zu unterscheiden.
Zusätzlich zu dem steigenden Interesse an Fragen der Datenverwaltung suchen Unternehmen nach kostengünstigeren, flexiblen und skalierbaren Lösungen für die Speicherung und Verwaltung ihrer Daten. Sie wollen ihre Daten in die Cloud verlagern und müssen dafür "Data Lakes" als Ergänzung zu den bereits vorhandenen Data Warehouses oder als Ersatz für den Operational Data Store (ODS) aufbauen.
Die Datenströme müssen in den kommenden Jahren neu ausgerichtet und ersetzt werden, weshalb der Fokus auf und die Zahl der Stellenausschreibungen für Dateningenieure im Laufe der Jahre allmählich zugenommen hat.
Die Rolle des Datenwissenschaftlers ist seit dem Beginn des Hypes gefragt, aber heutzutage suchen Unternehmen nach der Zusammenstellung von Data-Science-Teams, anstatt Einhorn-Data-Scientists einzustellen, die über Kommunikationsfähigkeiten, Kreativität, Cleverness, Neugierde, technisches Fachwissen usw. verfügen. Für Personalvermittler ist es schwer, Personen zu finden, die alle Qualitäten verkörpern, die Unternehmen suchen, und die Nachfrage übersteigt eindeutig das Angebot.
Man könnte argumentieren, dass die "Datenwissenschaftler-Blase" geplatzt ist. Oder vielleicht platzt sie in Zukunft doch noch.
Eines wird bei all dem bleiben: Die Nachfrage nach Experten, die eine Leidenschaft für Data Science-Themen haben, wird immer da sein. Die Berufsaussichten für diese Fachkräfte sind sehr positiv. Das US Bureau of Labor Statistics geht zum Beispiel davon aus, dass in den nächsten zehn Jahren jedes Jahr 17.700 Stellen für Datenwissenschaftler/innen frei werden, und auch für Dateningenieure und -ingenieurinnen sieht es gut aus.
Erste Schritte mit Data Engineering und Data Science
Wenn du deinen Weg zu einer Karriere in einer der beiden Rollen planen möchtest, sind unsere Leitfäden ein guter Startpunkt für dich:
Wenn du direkt in deine Lernreise einsteigen möchtest, ist das DataCamp genau das Richtige für dich. Wir haben viele Kurse, die ideal sind, wenn du mit dem Lernen von Data Engineering beginnen möchtest . Zum Beispiel die DataCamp-Kurse Importing Data in Python und Importing Data in R. Unsere Data Engineer-Zertifizierung ist eine weitere gute Option, um Personalchefs zu zeigen, dass du die erforderlichen Fähigkeiten für eine Einstiegsposition hast.
Für diejenigen, die in die Datenwissenschaft einsteigen wollen, gibt es die Kurse Exploratory Data Analysis, Introduction to R for Data Science, Machine Learning Toolbox und Introduction to Python for Data Science. Auch unsere Data Scientist-Zertifizierung ist hoch angesehen und wird dir helfen, bei führenden Unternehmen Fuß zu fassen.
Beginne noch heute interaktiv zu lernen!
FAQs
Was macht ein Dateningenieur?
Ein Dateningenieur ist jemand, der Architekturen wie Datenbanken und große Verarbeitungssysteme entwickelt, konstruiert, testet und wartet. Data Engineers befassen sich mit Rohdaten, die menschliche, maschinelle oder instrumentelle Fehler enthalten. Eine ihrer Hauptaufgaben ist es, die Daten zu bereinigen, damit ein Data Scientist sie anschließend analysieren kann. In unserem Leitfaden findest du weitere Informationen.
Was ist der Unterschied zwischen einem Data Engineer und einem Data Scientist?
Data Engineers konzentrieren sich auf die Verwaltung und Organisation von Daten, den Aufbau und die Pflege von Datenbanken und Datenpipelines, während sich Data Scientists auf die Analyse und Interpretation von Daten konzentrieren, um Erkenntnisse und Muster zu finden.
Welche Fähigkeiten brauchen Dateningenieure?
Dateningenieure brauchen Kenntnisse über Datenbanksysteme, Daten-APIs, ETL-Tools, Datenmodellierung und die Einrichtung von Data Warehouse-Lösungen.
Welche Fähigkeiten brauchen Datenwissenschaftler/innen?
Datenwissenschaftler/innen brauchen Kenntnisse in Statistik, Mathematik und maschinellem Lernen, um Vorhersagemodelle zu erstellen, sowie in Storytelling und Visualisierung, um den Stakeholdern Erkenntnisse effektiv zu vermitteln.
Welche Sprachen und Tools verwenden Dateningenieure?
Data Engineers nutzen Tools wie SAP, Oracle, Cassandra, MySQL, Redis, Riak, PostgreSQL, MongoDB, neo4j, Hive und Sqoop.
Welche Sprachen und Tools verwenden Datenwissenschaftler/innen?
Datenwissenschaftler/innen verwenden Sprachen wie SPSS, R, Python, SAS, Stata und Julia sowie Tools wie die Python-Datenmanipulationsbibliothek Pandas, ggplot2 für die Datenvisualisierung in R und Scikit-Learn, NumPy, Matplotlib und Statsmodels.
Welchen Bildungshintergrund haben Data Engineers und Data Scientists in der Regel?
Sowohl Data Engineers als auch Data Scientists haben oft einen Hintergrund in Informatik, aber Data Scientists können auch eine Ausbildung in Ökonometrie, Mathematik, Statistik und Operations Research haben, während Data Engineers eine Ausbildung in Computertechnik haben können.
Wie sind die Berufsaussichten für Data Engineers und Data Scientists?
Die Nachfrage nach beiden Rollen ist hoch, wobei mehr Stellen für Data Scientists als für Data Engineers ausgeschrieben werden. Unternehmen versuchen auch zunehmend, Data-Science-Teams aufzubauen, anstatt einzelne Einhorn-Data-Scientists einzustellen.