Weiter zum Inhalt

Startseite Python

Kurs

Feature Engineering für Machine Learning in Python

MittelSchwierigkeitsgrad

Aktualisiert 02/2023

Hier entwickelst du neue Features, um die Leistung deiner Machine-Learning-Modelle zu verbessern.

Kurs kostenlos starten

PythonMachine Learning

4 Std.

16 Videos

53 Übungen

4,350 XP

38,881

Leistungsnachweis

Beliebt bei Lernenden in Tausenden Unternehmen

Ein Team schulen?

Für Unternehmen ausprobieren

Kursbeschreibung

Jeden Tag liest du von beeindruckenden Durchbrüchen, wie neue Anwendungen des Machine Learning die Welt verändern. Oft wird dabei übersehen, dass vor dem Einsatz dieser ausgeklügelten Modelle eine Menge Datenaufbereitung und Feature Engineering nötig ist. In diesem Kurs lernst du genau das. Du arbeitest mit der Stack Overflow Developers Survey und historischen US-Antrittsreden von Präsidenten, um zu verstehen, wie du kategoriale, kontinuierliche und unstrukturierte Daten am besten vorverarbeitest und daraus Features entwickelst. Dieser Kurs gibt dir praktische Erfahrung darin, wie du beliebige Daten für deine eigenen Machine-Learning-Modelle vorbereitest.

Voraussetzungen

Supervised Learning with scikit-learn

1

Features erstellen

In diesem Kapitel lernst du, was Feature Engineering ist und wie du damit bei realen Daten loslegst. Du lädst, erkundest und visualisierst einen Datensatz mit Umfrageantworten und lernst dabei die zugrunde liegenden Datentypen kennen und warum sie beeinflussen, wie du deine Features entwickeln solltest. Mit dem Paket pandas erstellst du neue Features aus kategorialen und kontinuierlichen Spalten.

Warum Features erstellen?

Lerne deinen Datensatz kennen

Bestimmte Datentypen auswählen

Umgang mit kategorialen Features

One-Hot-Encoding und Dummy-Variablen

Mit seltenen Kategorien umgehen

Numerische Variablen

Spalten binarisieren

Werte in Bins einteilen

Kapitel starten

2

Mit unordentlichen Daten umgehen

Dieses Kapitel führt dich in die Realität unordentlicher und unvollständiger Daten ein. Du lernst, fehlende Werte in deinen Daten zu finden, und erkundest verschiedene Ansätze, wie du damit umgehst. Außerdem nutzt du String-Manipulationstechniken, um unerwünschte Zeichen in deinem Datensatz zu bereinigen.

Warum gibt es fehlende Werte?

Wie lückenhaft sind meine Daten?

Fehlende Werte finden

Umgang mit fehlenden Werten (I)

Listweises Löschen

Fehlende Werte durch Konstanten ersetzen

Umgang mit fehlenden Werten (II)

Kontinuierliche fehlende Werte auffüllen

Werte in prädiktiven Modellen imputieren

Mit weiteren Datenproblemen umgehen

Umgang mit unerwünschten Zeichen (I)

Umgang mit Fremdzeichen (II)

Method Chaining

Kapitel starten

3

Statistischen Annahmen entsprechen

In diesem Kapitel konzentrierst du dich auf die Analyse der zugrunde liegenden Verteilung deiner Daten und darauf, ob sie sich auf deine Machine-Learning-Pipeline auswirkt. Du lernst, wie du mit schief verteilten Daten umgehst und mit Situationen, in denen Ausreißer deine Analyse negativ beeinflussen könnten.

Datenverteilungen

Wie sehen deine Daten aus? (I)

Wie sehen deine Daten aus? (II)

Wann musst du deine Daten nicht transformieren?

Skalierung und Transformationen

Normalisierung

Standardisierung

Log-Transformation

Wann kannst du Normalisierung verwenden?

Ausreißer entfernen

Prozentbasierte Ausreißerentfernung

Statistisches Entfernen von Ausreißern

Neue Daten skalieren und transformieren

Transformationen für Training und Test (I)

Transformationen für Training und Test (II)

Kapitel starten

4

Mit Textdaten umgehen

Zum Schluss arbeitest du in diesem Kapitel mit unstrukturierten Textdaten und lernst, wie du daraus spaltenweise Features erzeugen kannst. Du vergleichst, wie sich unterschiedliche Ansätze darauf auswirken, wie viel Kontext aus einem Text extrahiert wird, und wie du den Bedarf an Kontext mit der Anzahl der erzeugten Features in Einklang bringst.

Text encodieren

Deinen Text bereinigen

Textfeatures auf hoher Ebene

Worthäufigkeiten

Wörter zählen (I)

Wörter zählen (II)

Featureanzahl begrenzen

Text zu DataFrame

Termfrequenz–inverse Dokumentfrequenz

Tf-idf-Werte untersuchen

Ungesehene Daten transformieren

Längere n-Gramme verwenden

Die häufigsten Wörter finden

Zusammenfassung

Kapitel starten

Feature Engineering für Machine Learning in Python

Kurs
abgeschlossen

Leistungsnachweis verdienen

Füge diesen Fähigkeitsnachweis zu deinem LinkedIn-Profil, Anschreiben oder Lebenslauf hinzu
Teile es auf Social Media und in deiner LeistungsbeurteilungJetzt anmelden

Schließe dich 19 Millionen Lernenden an und starte Feature Engineering für Machine Learning in Python heute!

DataCamp gibt es auch für Mobilgeräte

Mit unseren Kursen für Mobilgeräte und täglichen Programmier-Challenges erweiterst du deine Datenkompetenz von unterwegs.