Datenbereinigung in Python
Lernen Sie, schmutzige Daten zu diagnostizieren und zu behandeln, um genaue Einblicke zu gewinnen!
Kurs Kostenlos Starten4 Stunden13 Videos44 Übungen119.253 LernendeLeistungsnachweis
Kostenloses Konto erstellen
oder
Durch Klick auf die Schaltfläche akzeptierst du unsere Nutzungsbedingungen, unsere Datenschutzrichtlinie und die Speicherung deiner Daten in den USA.Trainierst du 2 oder mehr?
Versuchen DataCamp for BusinessBeliebt bei Lernenden in Tausenden Unternehmen
Kursbeschreibung
Entdecke, wie man Daten in Python bereinigt
Man sagt, dass Datenwissenschaftler/innen 80 % ihrer Zeit mit dem Bereinigen und Bearbeiten von Daten verbringen und nur 20 % ihrer Zeit mit der Analyse. Die Datenbereinigung ist ein wichtiger Schritt für jeden Datenwissenschaftler, da die Analyse von verschmutzten Daten zu ungenauen Schlussfolgerungen führen kann.In diesem Kurs lernst du, wie du verschiedene Probleme bei der Datenbereinigung in Python erkennen, diagnostizieren und behandeln kannst, von einfach bis fortgeschritten. Du wirst mit falschen Datentypen umgehen, überprüfen, ob deine Daten im richtigen Bereich liegen, mit fehlenden Daten umgehen, Datensatzverknüpfungen durchführen und vieles mehr!
Lernen, wie man verschiedene Datentypen bereinigt
Im ersten Kapitel des Kurses geht es um häufige Datenprobleme und wie du sie beheben kannst. Du wirst zunächst die grundlegenden Datentypen verstehen und wissen, wie du mit ihnen einzeln umgehen kannst. Danach wendest du Bereichsbeschränkungen an und entfernst doppelte Datenpunkte.Das letzte Kapitel befasst sich mit der Datensatzverknüpfung, einem leistungsstarken Werkzeug zum Zusammenführen mehrerer Datensätze. Du lernst, wie du Datensätze miteinander verknüpfst, indem du die Ähnlichkeit zwischen Zeichenketten berechnest. Zum Schluss wendest du deine neuen Kenntnisse an, um zwei Restaurantkritiken zu einem sauberen Masterdatensatz zu verbinden.
Gewinnen Sie Vertrauen in die Datenbereinigung
Am Ende des Kurses bist du in der Lage, verschiedene Datentypen zu bereinigen und Datensätze miteinander zu verknüpfen, um mehrere Datensätze zusammenzuführen. Das Bereinigen von Daten ist eine wichtige Fähigkeit für Datenwissenschaftler. Wenn du mehr über das Bereinigen von Daten in Python und seine Anwendungen erfahren möchtest, schau dir die folgenden Lernpfade an: Data Scientist with Python und Importing & Cleaning Data with Python.Für Unternehmen
Trainierst du 2 oder mehr?
Erhalten Sie für Ihr Team Zugriff auf die vollständige DataCamp-Bibliothek mit zentralisierten Berichten, Zuweisungen, Projekten und mehrIn den folgenden Tracks
Daten importieren und bereinigen mit Python
Gehe zu Track- 1
Häufige Datenprobleme
KostenlosIn diesem Kapitel erfährst du, wie du einige der häufigsten Probleme mit unreinen Daten lösen kannst. Du konvertierst Datentypen, wendest Bereichsbeschränkungen an, um zukünftige Datenpunkte zu entfernen, und entfernst doppelte Datenpunkte, um Doppelzählungen zu vermeiden.
Datentypbeschränkungen50 xpHäufige Datentypen100 xpNumerische Daten oder ... ?100 xpSummieren von Zeichenketten und Verketten von Zahlen100 xpEinschränkungen des Datenbereichs50 xpEinschränkungen bei der Reifengröße100 xpZurück in die Zukunft100 xpEindeutigkeitsbeschränkungen50 xpWie groß ist deine Teilmenge?50 xpDuplikate finden100 xpBehandlung von Duplikaten100 xp - 2
Probleme mit Text und kategorialen Daten
Kategoriale und Textdaten gehören oft zu den unübersichtlichsten Teilen eines Datensatzes, weil sie unstrukturiert sind. In diesem Kapitel erfährst du, wie du Unstimmigkeiten bei Leerzeichen und Großschreibung in Kategoriebeschriftungen behebst, mehrere Kategorien zu einer zusammenfasst und Zeichenketten neu formatierst, um die Konsistenz zu gewährleisten.
- 3
Fortgeschrittene Datenprobleme
In diesem Kapitel beschäftigst du dich mit fortgeschrittenen Datenbereinigungsproblemen, z. B. damit du sicherstellen kannst, dass alle Gewichte in Kilogramm statt in Pfund angegeben werden. Du erwirbst außerdem unschätzbare Fähigkeiten, mit denen du überprüfen kannst, ob die Werte korrekt hinzugefügt wurden und ob fehlende Werte deine Analysen nicht negativ beeinflussen.
Einheitlichkeit50 xpZweideutige Daten50 xpEinheitliche Währungen100 xpEinheitliche Datumsangaben100 xpFeldübergreifende Validierung50 xpFeldübergreifend oder nicht feldübergreifend?100 xpWie steht es um unsere Datenintegrität?100 xpVollständigkeit50 xpIst es ein Zufall, dass das fehlt?50 xpFehlende Investoren100 xpFolge dem Geld100 xp - 4
Datensatzverknüpfung
Die Datensatzverknüpfung ist eine leistungsstarke Technik, mit der mehrere Datensätze zusammengeführt werden können, wenn die Werte Tippfehler oder unterschiedliche Schreibweisen aufweisen. In diesem Kapitel lernst du, wie du Datensätze miteinander verknüpfst, indem du die Ähnlichkeit zwischen Zeichenketten berechnest, und dann deine neuen Kenntnisse einsetzt, um zwei Restaurantbewertungsdatensätze zu einem einzigen, sauberen Masterdatensatz zu verbinden.
Zeichenketten vergleichen50 xpMinimale Editierdistanz50 xpDer Abschneidepunkt100 xpKategorien neu zuordnen, Teil II100 xpPaare generieren50 xpVerlinken oder nicht verlinken?100 xpRestaurantpaare100 xpÄhnliche Restaurants100 xpDataFrames verknüpfen50 xpDen richtigen Index finden50 xpVerbinde sie miteinander!100 xpHerzlichen Glückwunsch!50 xp
Für Unternehmen
Trainierst du 2 oder mehr?
Erhalten Sie für Ihr Team Zugriff auf die vollständige DataCamp-Bibliothek mit zentralisierten Berichten, Zuweisungen, Projekten und mehrIn den folgenden Tracks
Daten importieren und bereinigen mit Python
Gehe zu TrackDatensätze
Ride sharing datasetAirlines datasetBanking datasetRestaurants datasetRestaurants dataset IIMitwirkende
Adel Nehme
Mehr AnzeigenVP of Media, DataCamp
Was sagen andere Lernende?
Melden Sie sich an 15 Millionen Lernende und starten Sie Datenbereinigung in Python Heute!
Kostenloses Konto erstellen
oder
Durch Klick auf die Schaltfläche akzeptierst du unsere Nutzungsbedingungen, unsere Datenschutzrichtlinie und die Speicherung deiner Daten in den USA.