Pular para o conteúdo principal

Curso

Feature Engineering com PySpark

AvançadoNível de habilidade

Atualizado 01/2026

Conheça os detalhes complexos nos quais os cientistas de dados dedicam 70% a 80% do seu tempo: manipulação de dados e engenharia de recursos.

Iniciar curso gratuitamente

SparkData Manipulation

4 h

16 vídeos

60 Exercícios

5,000 XP

17,778

Declaração de realização

Preferido por alunos de milhares de empresas

Treinando uma equipe?

Experimente para Empresas

Descrição do curso

O mundo real é bagunçado e seu trabalho é dar sentido a ele. Conjuntos de dados de exemplo como MTCars e Iris são fruto de cuidadosa curadoria e limpeza; ainda assim, os dados precisam ser transformados para que algoritmos de machine learning possam extrair significado, prever, classificar ou agrupar. Este curso vai cobrir os detalhes práticos nos quais cientistas de dados passam 70–80% do tempo: tratamento de dados e engenharia de atributos. Como os conjuntos de dados estão cada vez maiores, vamos usar PySpark para reduzir esse problema de Big Data ao tamanho certo!

Pré-requisitos

Supervised Learning with scikit-learn Introduction to PySpark

1

Análise Exploratória de Dados

Entenda um pouco do seu problema antes de começar! Depois, aprenda a inspecionar seu conjunto de dados de forma estatística e visual!

Por onde começar

Por onde começar?

Verificar versão

Carregar os dados

Definindo um problema

O que estamos prevendo?

Verificando a carga de dados

Verificando tipos de dados

Inspecionando dados visualmente / EDA

Usando Corr()

Usando visualizações: distplot

Usando visualizações: lmplot

Iniciar capítulo

2

Tratamento com Funções do Spark

Dados reais raramente estão limpos e prontos para análise. Neste capítulo, você vai aprender a remover informações desnecessárias, lidar com valores ausentes e adicionar dados extras à sua análise.

Removendo dados

Removendo uma lista de colunas

Usando filtros de texto para remover registros

Filtrando campos numéricos condicionalmente

Ajustando os dados

Escalonamento Personalizado em Percentual

Escalando seus scalers

Corrigindo dados com assimetria à direita

Trabalhando com dados ausentes

Visualizando dados ausentes

Imputando dados ausentes

Calcular porcentagens de ausentes

Obtendo mais dados

Uma junção perigosa

Junção no Spark SQL

Verificando joins problemáticos

Iniciar capítulo

3

Engenharia de Atributos

Neste capítulo, você vai aprender a criar novos atributos para o seu modelo de machine learning aprender melhor. Vamos gerar atributos combinando campos, extraindo valores de colunas desorganizadas e codificando-os para obter resultados superiores.

Geração de features

Diferenças

Proporções

Recursos mais profundos

Recursos de Tempo

Componentes de tempo

Fazendo join por componentes de tempo

Operações com datas

Extraindo features

Extraindo texto para novas features

Dividir e Explodir

Pivot & Join

Binarização, Bucketização e Codificação

Binarizando o dia da semana

Criação de faixas (Bucketing)

One-Hot Encoding

Iniciar capítulo

4

Construindo um Modelo

Neste capítulo, vamos aprender a escolher o tipo de modelo que queremos. Em seguida, vamos aplicar nossos dados ao modelo e avaliá-lo. Por fim, vamos interpretar os resultados e salvar o modelo para usar depois!

Escolhendo o algoritmo

Qual módulo do MLlib?

Criando divisões por tempo

Ajustando features de tempo

Suposições de engenharia de atributos para RFR

Engenharia de Atributos para Random Forests

Removendo colunas com poucas observações

Tratando Valores Ausentes e Categóricos de Forma Ingênua

Construindo um modelo

Construindo um modelo de regressão

Avaliando e comparando algoritmos

Entendendo as métricas

Interpretar, salvar e carregar

Interpretando resultados

Salvando e Carregando Modelos

Considerações finais

Iniciar capítulo

Feature Engineering com PySpark

Curso
concluído

Obtenha um certificado de conclusão

Adicione esta credencial ao seu perfil do LinkedIn, currículo ou CV
Compartilhe nas redes sociais e em sua avaliação de desempenhoInscreva-se agora

Faça como mais de 19 milhões de alunos e comece Feature Engineering com PySpark hoje mesmo!

Desenvolva suas habilidades em dados com o app do DataCamp

Continue progredindo em qualquer lugar com nossos cursos para celular e desafios diários de programação de 5 minutos.