Vai al contenuto principale

Corso

Riduzione della dimensionalità in R

BasicLivello di competenza

Aggiornato 12/2024

Inizia Il Corso Gratis

RMachine Learning4 h16 video56 Esercizi4,600 XP2,700Attestato di conseguimento

Crea il tuo account gratuito

o

Continuando, accetti i nostri Termini di utilizzo, la nostra Informativa sulla privacy e che i tuoi dati siano conservati negli Stati Uniti.

Preferito dagli studenti di migliaia di aziende

Vuoi formare 2 o più persone?

Prova DataCamp for Business

Descrizione del corso

Ti capita mai di lavorare con set di dati che hanno un sacco di caratteristiche? Hai davvero bisogno di tutte quelle funzioni? Quali sono i più importanti? In questo corso imparerai le tecniche di riduzione della dimensionalità che ti aiuteranno a semplificare i tuoi dati e i modelli che crei con essi, mantenendo le informazioni dei dati originali e buone prestazioni predittive.

Perché imparare la riduzione della dimensionalità?

Viviamo nell'era dell'informazione, un'epoca in cui siamo sommersi dalle informazioni. L'arte di tirare fuori le informazioni importanti dai dati è una competenza che va alla grande sul mercato. I modelli si addestrano più velocemente con meno dati. Nella produzione, modelli più piccoli significano tempi di risposta più rapidi. Forse la cosa più importante è che i dati e i modelli più piccoli sono spesso più facili da capire. La riduzione della dimensionalità è il tuo rasoio di Occam nella scienza dei dati.

Cosa imparerai in questo corso?

La differenza tra selezione delle caratteristiche ed estrazione delle caratteristiche! Usando R, imparerai a capire e togliere le caratteristiche con poche informazioni o che sono doppie, tenendo quelle con più informazioni. Questa è la selezione delle caratteristiche. Imparerai anche come estrarre combinazioni di caratteristiche come componenti condensati che contengono il massimo delle informazioni. Ecco cos'è l'estrazione delle caratteristiche!

Ma soprattutto, con il nuovo pacchetto tidymodel di R, potrai usare dati reali per creare modelli con meno caratteristiche senza perdere in termini di prestazioni.

Prerequisiti

Modeling with tidymodels in R

1

Foundations of Dimensionality Reduction

Prepare to simplify large data sets! You will learn about information, how to assess feature importance, and practice identifying low-information features. By the end of the chapter, you will understand the difference between feature selection and feature extraction—the two approaches to dimensionality reduction.

Introduction to dimensionality reduction

Dimensionality and feature information

Mutual information features

Information and feature importance

Calculating root entropy

Calculating child entropies

Calculating information gain of color

The Importance of Dimensionality Reduction in Data and Model Building

Calculate possible combinations

Curse of dimensionality, overfitting, and bias

Inizia Il Capitolo

2

Feature Selection for Feature Importance

Learn how to identify information-rich and information-poor features missing value ratios, variance, and correlation. Then you'll discover how to build tidymodel recipes to select features using these information indicators.

Feature selection vs. feature extraction

Create a zero-variance filter

Create a missing values filter

Feature selection with the combined filter

Selecting based on missing values

Create a missing value ratio filter

Apply a missing value ratio filter

Create a missing values recipe

Selecting based on variance

Create a low-variance filter

Create a low-variance recipe

Selecting based on correlation with other features

Identify highly correlated features

Select correlated feature to remove

Create a high-correlation recipe

Inizia Il Capitolo

3

Feature Selection for Model Performance

Chapter three introduces the difference between unsupervised and supervised feature selection approaches. You'll review how to use tidymodels workflows to build models. Then, you'll perform supervised feature selection using lasso regression and random forest models.

Supervised feature selection

Supervised vs. unsupervised feature selection

Decision tree feature selection type

Model Building and Evaluation with tidymodels

Split out the train and test sets

Create a recipe-model workflow

Fit, explore, and evaluate the model

Lasso Regression

Scale the data for lasso regression

Explore lasso regression penalty values

Tune the penalty hyperparameter

Fit the best model

Random forest models

Create full random forest model

Reduce data using feature importances

Create reduced random forest

Inizia Il Capitolo

4

Feature Extraction and Model Performance

In this final chapter, you'll gain a strong intuition of feature extraction by understanding how principal components extract and combine the most important information from different features. Then learn about and apply three types of feature extraction — principal component analysis (PCA), t-SNE, and UMAP. Discover how you can use these feature extraction methods as a preprocessing step in the tidymodels model-building process.

Foundations of feature extraction - principal components

Understanding principal components

Naming principal components

Principal Component Analysis (PCA)

PCA: variance explained

Mapping features to principal components

PCA in tidymodels

t-Distributed Stochastic Neighborhood Embedding (t-SNE)

Separating house prices with PCA

Separating house prices with t-SNE

Uniform Manifold Approximation and Projection (UMAP)

Separating house prices with UMAP

UMAP reduction in a decision tree model

Evaluate the UMAP decision tree model

Inizia Il Capitolo

Riduzione della dimensionalità in R

Corso
completato

Ottieni Attestato di conseguimento

Aggiungi questa certificazione al tuo profilo LinkedIn, al curriculum o al CV
Condividila sui social e nella valutazione delle tue performanceIscriviti Ora

Unisciti a oltre 19 milioni di studenti e inizia Riduzione della dimensionalità in R oggi!

Crea il tuo account gratuito

o

Continuando, accetti i nostri Termini di utilizzo, la nostra Informativa sulla privacy e che i tuoi dati siano conservati negli Stati Uniti.

Aumenta le tue competenze sui dati con l'app di DataCamp

Avanza ovunque ti trovi con i nostri corsi per dispositivi mobili e le nostre sfide di programmazione quotidiane da 5 minuti.