Vai al contenuto principale

Corso

Riduzione della dimensionalità in Python

IntermedioLivello di competenza

Aggiornato 01/2023

Capisci il concetto di ridurre la dimensionalità dei tuoi dati e impara le tecniche per farlo in Python.

Inizia il corso gratis

PythonMachine Learning

4 h

16 video

58 Esercizi

4,700 XP

36,437

Attestato di conseguimento

Preferito dagli studenti di migliaia di aziende

Formare un team?

Prova per il Business

Descrizione del corso

Gli insiemi di dati ad alta dimensionalità possono risultare travolgenti e non sapere da dove iniziare è normale. Di solito, esploreresti visivamente un nuovo insieme di dati per primo, ma quando le dimensioni sono troppe gli approcci classici non bastano. Per fortuna, esistono tecniche di visualizzazione pensate proprio per i dati ad alta dimensionalità, che conoscerai in questo corso. Dopo l’esplorazione, spesso scoprirai che molte caratteristiche contengono poche informazioni perché non mostrano varianza o perché sono duplicati di altre. Imparerai a individuare queste caratteristiche e a rimuoverle dall’insieme di dati, così da concentrarti su quelle informative. Nel passo successivo, potresti voler costruire un modello su queste caratteristiche e potresti scoprire che alcune non hanno alcun effetto su ciò che stai cercando di prevedere. Imparerai anche a individuare e scartare queste caratteristiche irrilevanti, per ridurre la dimensionalità e quindi la complessità. Infine, vedrai come le tecniche di estrazione delle caratteristiche possono ridurre per te la dimensionalità calcolando componenti principali non correlate.

Prerequisiti

Supervised Learning with scikit-learn

1

Esplorare dati ad alta dimensionalità

Ti verrà presentato il concetto di riduzione della dimensionalità e imparerai quando e perché è importante. Conoscerai la differenza tra selezione delle caratteristiche ed estrazione delle caratteristiche e applicherai entrambe le tecniche per l’esplorazione dei dati. Il capitolo si conclude con una lezione su t-SNE, una potente tecnica di estrazione che ti permetterà di visualizzare un insieme di dati ad alta dimensionalità.

Introduzione

Trovare il numero di dimensioni in un insieme di dati

Rimuovere le feature senza varianza

Feature selection vs feature extraction

Rilevare visivamente le feature ridondanti

Vantaggio della feature selection

Visualizzazione con t-SNE di dati ad alta dimensionalità

Intuizione su t-SNE

Adattare t-SNE ai dati ANSUR

Visualizzazione t-SNE della dimensionalità

Inizia il capitolo

2

Selezione delle caratteristiche I - Selezionare in base all’informazione

In questo primo di due capitoli sulla selezione delle caratteristiche, imparerai la “maledizione della dimensionalità” e come la riduzione della dimensionalità può aiutarti a superarla. Ti verranno presentate diverse tecniche per individuare e rimuovere le caratteristiche che aggiungono poco valore all’insieme di dati, sia perché hanno poca varianza, troppi valori mancanti o perché sono fortemente correlate ad altre caratteristiche.

La maledizione della dimensionalità

Suddivisione train - test

Addestrare e testare il modello

Accuratezza dopo la riduzione della dimensionalità

Caratteristiche con valori mancanti o bassa varianza

Trovare una buona soglia per la varianza

Caratteristiche a bassa varianza

Rimozione di feature con molti valori mancanti

Correlazione a coppie

Intuizione sulla correlazione

Esplorare la matrice di correlazione

Visualizzare la matrice di correlazione

Rimuovere le feature altamente correlate

Filtrare le feature altamente correlate

Energia nucleare e annegamenti in piscina

Inizia il capitolo

3

Selezione delle caratteristiche II - Selezionare in base all’accuratezza del modello

In questo secondo capitolo sulla selezione delle caratteristiche, imparerai a lasciare che i modelli ti aiutino a trovare le caratteristiche più importanti in un insieme di dati per prevedere una specifica variabile target. Nell’ultima lezione del capitolo, combinerai i suggerimenti di modelli diversi per decidere quali caratteristiche vale la pena mantenere.

Selezionare le feature per le prestazioni del modello

Creare un classificatore per il diabete

Eliminazione ricorsiva manuale delle caratteristiche

Eliminazione Ricorsiva delle Caratteristiche automatica

Selezione delle feature basata su alberi

Costruire un modello di random forest

Random forest per la selezione delle feature

Eliminazione ricorsiva delle caratteristiche con random forest

Regressione lineare regolarizzata

Creare un regressore LASSO

Risultati del modello Lasso

Regolare l'intensità della regolarizzazione

Combinare i selettori di caratteristiche

Creare un regressore LassoCV

Modelli ensemble per voti extra

Combinare 3 selettori di caratteristiche

Inizia il capitolo

4

Estrazione delle caratteristiche

Questo capitolo approfondisce l’algoritmo di riduzione della dimensionalità più usato, la Principal Component Analysis (PCA). Costruirai l’intuizione su come e perché questo algoritmo è così potente e lo applicherai sia per l’esplorazione dei dati sia per il pre-processing in una pipeline di modellazione. Concluderai con un interessante caso d’uso di compressione di immagini.

Estrazione di caratteristiche

Estrazione manuale delle caratteristiche I

Estrazione manuale delle feature II

Intuizione sui componenti principali

Analisi delle componenti principali

Calcolo delle Componenti Principali

PCA su un dataset più grande

Varianza spiegata con la PCA

Applicazioni della PCA

Capire le componenti

PCA per l’esplorazione delle feature

PCA in una pipeline di modello

Selezione delle componenti principali

Selezionare la quota di varianza da mantenere

Scegliere il numero di componenti

PCA per la compressione delle immagini

Congratulazioni!

Inizia il capitolo

Riduzione della dimensionalità in Python

Corso
completato

Ottieni Attestato di conseguimento

Aggiungi questa certificazione al tuo profilo LinkedIn, al curriculum o al CV
Condividila sui social e nella valutazione delle tue performanceIscriviti ora

Unisciti a oltre 19 milioni di studenti e inizia Riduzione della dimensionalità in Python oggi!

Aumenta le tue competenze sui dati con l'app di DataCamp

Avanza ovunque ti trovi con i nostri corsi per dispositivi mobili e le nostre sfide di programmazione quotidiane da 5 minuti.