Pular para o conteúdo principal

Curso

Redução de Dimensionalidade em R

BásicoNível de habilidade

Atualizado 12/2024

Aprenda técnicas de redução de dimensionalidade em R e domine a seleção e extração de recursos para seus próprios dados e modelos.

Iniciar curso gratuitamente

RMachine Learning

4 h

16 vídeos

56 Exercícios

4,600 XP

2,744

Declaração de realização

Preferido por alunos de milhares de empresas

Treinando uma equipe?

Experimente para Empresas

Descrição do curso

Você já trabalhou com conjuntos de dados com um número enorme de recursos? Você precisa de todos esses recursos? Quais são os mais importantes? Neste curso, você vai aprender técnicas de redução de dimensionalidade que vão te ajudar a simplificar seus dados e os modelos que você constrói com eles, mantendo as informações dos dados originais e um bom desempenho preditivo.

Redução de dimensionalidade

Vivemos na era da informação — uma época de excesso de informação. A arte de pegar as informações importantes dos dados é uma habilidade que dá pra vender. Os modelos aprendem mais rápido com menos dados. Na produção, modelos menores significam tempo de resposta mais rápido. Talvez o mais importante seja que dados e modelos menores costumam ser mais fáceis de entender. A redução da dimensionalidade é tipo a navalha de Occam na ciência de dados.

O que você vai aprender neste curso?

A diferença entre seleção de características e extração de características! Usando o R, você vai aprender a identificar e remover características com pouca ou muita informação repetida, mantendo as características com mais informação. Isso é seleção de características. Você também vai aprender a extrair combinações de características como componentes condensados que têm o máximo de informação. Isso é extração de características!

Mas, o mais importante, usando o novo pacote tidymodel do R, você vai usar dados reais para criar modelos com menos recursos, sem perder muito desempenho.

Pré-requisitos

Modeling with tidymodels in R

1

Foundations of Dimensionality Reduction

Prepare to simplify large data sets! You will learn about information, how to assess feature importance, and practice identifying low-information features. By the end of the chapter, you will understand the difference between feature selection and feature extraction—the two approaches to dimensionality reduction.

Introduction to dimensionality reduction

Dimensionality and feature information

Mutual information features

Information and feature importance

Calculating root entropy

Calculating child entropies

Calculating information gain of color

The Importance of Dimensionality Reduction in Data and Model Building

Calculate possible combinations

Curse of dimensionality, overfitting, and bias

Iniciar capítulo

2

Feature Selection for Feature Importance

Learn how to identify information-rich and information-poor features missing value ratios, variance, and correlation. Then you'll discover how to build tidymodel recipes to select features using these information indicators.

Feature selection vs. feature extraction

Create a zero-variance filter

Create a missing values filter

Feature selection with the combined filter

Selecting based on missing values

Create a missing value ratio filter

Apply a missing value ratio filter

Create a missing values recipe

Selecting based on variance

Create a low-variance filter

Create a low-variance recipe

Selecting based on correlation with other features

Identify highly correlated features

Select correlated feature to remove

Create a high-correlation recipe

Iniciar capítulo

3

Feature Selection for Model Performance

Chapter three introduces the difference between unsupervised and supervised feature selection approaches. You'll review how to use tidymodels workflows to build models. Then, you'll perform supervised feature selection using lasso regression and random forest models.

Supervised feature selection

Supervised vs. unsupervised feature selection

Decision tree feature selection type

Model Building and Evaluation with tidymodels

Split out the train and test sets

Create a recipe-model workflow

Fit, explore, and evaluate the model

Lasso Regression

Scale the data for lasso regression

Explore lasso regression penalty values

Tune the penalty hyperparameter

Fit the best model

Random forest models

Create full random forest model

Reduce data using feature importances

Create reduced random forest

Iniciar capítulo

4

Feature Extraction and Model Performance

In this final chapter, you'll gain a strong intuition of feature extraction by understanding how principal components extract and combine the most important information from different features. Then learn about and apply three types of feature extraction — principal component analysis (PCA), t-SNE, and UMAP. Discover how you can use these feature extraction methods as a preprocessing step in the tidymodels model-building process.

Foundations of feature extraction - principal components

Understanding principal components

Naming principal components

Principal Component Analysis (PCA)

PCA: variance explained

Mapping features to principal components

PCA in tidymodels

t-Distributed Stochastic Neighborhood Embedding (t-SNE)

Separating house prices with PCA

Separating house prices with t-SNE

Uniform Manifold Approximation and Projection (UMAP)

Separating house prices with UMAP

UMAP reduction in a decision tree model

Evaluate the UMAP decision tree model

Iniciar capítulo

Redução de Dimensionalidade em R

Curso
concluído

Obtenha um certificado de conclusão

Adicione esta credencial ao seu perfil do LinkedIn, currículo ou CV
Compartilhe nas redes sociais e em sua avaliação de desempenhoInscreva-se agora

Faça como mais de 19 milhões de alunos e comece Redução de Dimensionalidade em R hoje mesmo!

Desenvolva suas habilidades em dados com o app do DataCamp

Continue progredindo em qualquer lugar com nossos cursos para celular e desafios diários de programação de 5 minutos.