Pular para o conteúdo principal

Curso

Feature Engineering for Machine Learning in Python

IntermediárioNível de habilidade

Atualizado 02/2023

Crie novos atributos para melhorar o desempenho dos seus modelos de aprendizado de máquina.

Iniciar curso gratuitamente

PythonMachine Learning

4 h

16 vídeos

53 Exercícios

4,350 XP

38,881

Declaração de realização

Preferido por alunos de milhares de empresas

Treinando uma equipe?

Experimente para Empresas

Descrição do curso

Todo dia você lê sobre avanços incríveis e como as aplicações mais recentes de Machine Learning estão mudando o mundo. Muitas vezes, essas matérias deixam de lado o fato de que é preciso fazer um grande trabalho de preparação de dados e engenharia de atributos antes de usar qualquer um desses modelos sofisticados. Neste curso, você vai aprender exatamente isso. Você vai trabalhar com a pesquisa de desenvolvedores do Stack Overflow e com discursos históricos de posse de presidentes dos EUA para entender como pré-processar e criar atributos a partir de dados categóricos, contínuos e não estruturados. Este curso oferece prática direta de como preparar qualquer dado para seus próprios modelos de Machine Learning.

Pré-requisitos

Supervised Learning with scikit-learn

1

Criando atributos

Neste capítulo, você vai explorar o que é engenharia de atributos e como começar a aplicá-la em dados do mundo real. Você vai carregar, explorar e visualizar um conjunto de respostas de pesquisa e, com isso, entender os tipos de dados subjacentes e por que eles influenciam a forma como você deve criar seus atributos. Usando o pacote pandas, você vai criar novos atributos a partir de colunas categóricas e contínuas.

Por que gerar features?

Conhecendo seus dados

Selecionando tipos de dados específicos

Como lidar com variáveis categóricas

One-hot encoding e variáveis dummies

Lidando com categorias incomuns

Variáveis numéricas

Binarizando colunas

Agrupando valores em faixas (binning)

Iniciar capítulo

2

Lidando com dados bagunçados

Este capítulo apresenta a realidade de dados bagunçados e incompletos. Você vai aprender a encontrar onde seus dados têm valores ausentes e explorar várias abordagens para tratá-los. Você também usará técnicas de manipulação de strings para lidar com caracteres indesejados no seu conjunto de dados.

Por que existem valores ausentes?

Quão esparsos estão meus dados?

Encontrando os valores ausentes

Lidando com valores ausentes (I)

Exclusão por lista (listwise deletion)

Substituindo valores ausentes por constantes

Lidando com valores ausentes (II)

Preenchendo valores contínuos ausentes

Imputando valores em modelos preditivos

Lidando com outros problemas de dados

Lidando com caracteres soltos (I)

Lidando com caracteres soltos (II)

Encadeamento de métodos

Iniciar capítulo

3

Conformidade com pressupostos estatísticos

Neste capítulo, o foco é analisar a distribuição subjacente dos seus dados e se ela impactará seu pipeline de Machine Learning. Você vai aprender a lidar com dados assimétricos e situações em que outliers podem estar prejudicando sua análise.

Distribuições de dados

Como são os seus dados? (I)

How does your data look? (II)

Quando você não precisa transformar seus dados?

Escalonamento e transformações

Normalização

Padronização

Transformação logarítmica

Quando você pode usar normalização?

Removendo outliers

Remoção de outliers baseada em porcentagem

Remoção estatística de outliers

Dimensionando e transformando novos dados

Transformações de treino e teste (I)

Transformações de treino e teste (II)

Iniciar capítulo

4

Trabalhando com dados de texto

Por fim, neste capítulo, você vai trabalhar com dados de texto não estruturados, entendendo maneiras de extrair atributos em colunas a partir de um corpus de texto. Você vai comparar como diferentes abordagens podem impactar o quanto de contexto é extraído de um texto e como equilibrar a necessidade de contexto sem criar atributos em excesso.

Codificando texto

Limpando seu texto

Recursos textuais de alto nível

Contagem de palavras

Contando palavras (I)

Contando palavras (II)

Limitando suas features

Texto para DataFrame

Frequência de termo–frequência inversa de documento

Inspecionando valores de Tf-idf

Transformando dados inéditos

Usando n-gramas mais longos

Encontrando as palavras mais comuns

Encerramento

Iniciar capítulo

Feature Engineering for Machine Learning in Python

Curso
concluído

Obtenha um certificado de conclusão

Adicione esta credencial ao seu perfil do LinkedIn, currículo ou CV
Compartilhe nas redes sociais e em sua avaliação de desempenhoInscreva-se agora

Faça como mais de 19 milhões de alunos e comece Feature Engineering for Machine Learning in Python hoje mesmo!

Desenvolva suas habilidades em dados com o app do DataCamp

Continue progredindo em qualquer lugar com nossos cursos para celular e desafios diários de programação de 5 minutos.