Перейти к основному содержимому

Главная Spark

Курс

Feature Engineering with PySpark

Продвинутый уровеньУровень навыков

Обновлено 01.2026

Learn the gritty details that data scientists are spending 70-80% of their time on; data wrangling and feature engineering.

Начать курс бесплатно

SparkData Manipulation

4 ч

16 видео

60 Упражнений

5,000 XP

17,763

Справка об успешном завершении

Создать бесплатный аккаунт

Продолжить через Google Показать больше вариантов

или

Продолжая, вы принимаете наши Условия использования, нашу Политику конфиденциальности и соглашаетесь с тем, что ваши данные хранятся в США.

Любимая обучающимися из тысяч компаний

Обучаете команду?

Попробуйте для бизнеса

Описание курса

The real world is messy and your job is to make sense of it. Toy datasets like MTCars and Iris are the result of careful curation and cleaning, even so the data needs to be transformed for it to be useful for powerful machine learning algorithms to extract meaning, forecast, classify or cluster. This course will cover the gritty details that data scientists are spending 70-80% of their time on; data wrangling and feature engineering. With size of datasets now becoming ever larger, let's use PySpark to cut this Big Data problem down to size!

Необходимые условия

Supervised Learning with scikit-learn Introduction to PySpark

1

Exploratory Data Analysis

Get to know a bit about your problem before you dive in! Then learn how to statistically and visually inspect your dataset!

Where to Begin

Where to begin?

Check Version

Load in the data

Defining A Problem

What are we predicting?

Verifying Data Load

Verifying DataTypes

Visually Inspecting Data / EDA

Using Corr()

Using Visualizations: distplot

Using Visualizations: lmplot

Начать главу

2

Wrangling with Spark Functions

Real data is rarely clean and ready for analysis. In this chapter learn to remove unneeded information, handle missing values and add additional data to your analysis.

Dropping data

Dropping a list of columns

Using text filters to remove records

Filtering numeric fields conditionally

Adjusting Data

Custom Percentage Scaling

Scaling your scalers

Correcting Right Skew Data

Working with Missing Data

Visualizing Missing Data

Imputing Missing Data

Calculate Missing Percents

Getting More Data

A Dangerous Join

Spark SQL Join

Checking for Bad Joins

Начать главу

3

Feature Engineering

In this chapter learn how to create new features for your machine learning model to learn from. We'll look at generating them by combining fields, extracting values from messy columns or encoding them for better results.

Feature Generation

Differences

Deeper Features

Time Features

Time Components

Joining On Time Components

Extracting Features

Extracting Text to New Features

Splitting & Exploding

Pivot & Join

Binarizing, Bucketing & Encoding

Binarizing Day of Week

One Hot Encoding

Начать главу

4

Building a Model

In this chapter we'll learn how to choose which type of model we want. Then we will learn how to apply our data to the model and evaluate it. Lastly, we'll learn how to interpret the results and save the model for later!

Choosing the Algorithm

Which MLlib Module?

Creating Time Splits

Adjusting Time Features

Feature Engineering Assumptions for RFR

Feature Engineering For Random Forests

Dropping Columns with Low Observations

Naively Handling Missing and Categorical Values

Building a Model

Building a Regression Model

Evaluating & Comparing Algorithms

Understanding Metrics

Interpreting, Saving & Loading

Interpreting Results

Saving & Loading Models

Final Thoughts

Начать главу

Feature Engineering with PySpark

Курс
завершён

Получить сертификат об окончании

Добавьте эту квалификацию в профиль LinkedIn, резюме или CV
Поделитесь в социальных сетях и в обзоре эффективностиЗаписаться сейчас

Присоединяйтесь к более чем 19 миллионам обучающихся и начните Feature Engineering with PySpark уже сегодня!

Создать бесплатный аккаунт

Продолжить через Google Показать больше вариантов

или

Продолжая, вы принимаете наши Условия использования, нашу Политику конфиденциальности и соглашаетесь с тем, что ваши данные хранятся в США.

Развивайте свои навыки работы с данными с помощью DataCamp для мобильных устройств.

Успевайте в обучении на ходу с помощью наших мобильных курсов и ежедневных 5-минутных заданий по программированию.