Vai al contenuto principale

Corso

Riservatezza dei dati e anonimizzazione in Python

AvanzatoLivello di competenza

Aggiornato 06/2022

Impara a gestire le informazioni sensibili usando tecniche che proteggono la privacy.

Inizia il corso gratis

PythonMachine Learning

4 h

16 video

49 Esercizi

3,850 XP

3,763

Attestato di conseguimento

Preferito dagli studenti di migliaia di aziende

Formare un team?

Prova per il Business

Descrizione del corso

La tutela della privacy dei dati non è mai stata così importante. Ma come bilanciare la privacy con l’esigenza di raccogliere e condividere insight di business di valore? In questo corso imparerai a farlo, usando gli stessi metodi di Google e Amazon—tra cui generalizzazione dei dati e modelli di privacy come k-Anonymity e differential privacy. Oltre a toccare temi come il GDPR, scoprirai anche come creare e addestrare modelli di Machine Learning in Python proteggendo le informazioni sensibili degli utenti, come dati su dipendenti e redditi. Iniziamo!

Prerequisiti

Unsupervised Learning in Python

1

Introduzione alla riservatezza dei dati

Preparati ad applicare tecniche di anonimizzazione come soppressione dei dati, mascheramento, generazione di dati sintetici e generalizzazione. In questo capitolo imparerai a distinguere tra PII (informazioni personali identificabili) sensibili e non sensibili, quasi-identificatori e le basi del GDPR. Vedrai anche esempi reali di cosa può andare storto se non segui queste buone pratiche.

Cosa è privato e perché ci interessa?

La privacy è potere

È sensibile o non sensibile?

Soppressione di attributi sensibili

Data masking e generazione di dati con Faker

Mascherare PII sensibili

Rimozione dei nomi con faker

Anonimizzazione con la generalizzazione dei dati

Ridurre il rischio di identificazione con la generalizzazione

Aggregazione dei dati e generalizzazione dei dati

Top e bottom coding degli stipendi della Casa Bianca

Inizia il capitolo

2

Tecniche per preservare la privacy: approfondimenti

Scopri come anonimizzare i dati campionando da insiemi di dati seguendo la distribuzione di probabilità delle colonne. Imparerai poi ad applicare il modello di privacy k-anonymity per prevenire attacchi di collegamento o re-identificazione e a usare gerarchie per effettuare la generalizzazione dei dati nelle variabili categoriche.

Anonimizzare i dati categoriali

Esplora la distribuzione dei dati

Campionare dalla stessa distribuzione di probabilità

Anonimizzare i dati continui

Distribuzioni diverse

Campionare dalla migliore distribuzione continua

Introduzione alla k-anonymity

Attributi di privacy

Generalizzare in intervalli

Generalizzare i dati usando le gerarchie

Usare gerarchie per dati categorici

Applicare la k-anonimizzazione a un insieme di dati

Inizia il capitolo

3

Differential Privacy

Approfondisci la differential privacy, il modello utilizzato da grandi aziende tecnologiche come Apple, Google e Uber. In questo capitolo esplorerai i dati generando istogrammi privati e calcolando medie private. Creerai anche modelli di Machine Learning differenzialmente privati che consentono alle aziende di aumentare l’utilità dei propri dati.

Introduzione alla differential privacy

Epsilon (ϵ): il numero magico

Istogrammi con privacy differenziale

Budget di privacy

Uso dei budget di privacy

Quando non resta budget

Esplorare i dati con un gestore del budget di privacy

Modelli di Machine Learning con privacy differenziale

Crea un classificatore con privacy differenziale

Prevedere gli stipendi

Modelli di clustering con differential privacy

Pre-elaborazione dei dati

Segmentazione dei clienti

Inizia il capitolo

4

Anonimizzazione e pubblicazione di insiemi di dati

In questo capitolo finale imparerai ad applicare metodi di riduzione della dimensionalità, come l’analisi delle componenti principali (PCA), per anonimizzare grandi insiemi di dati multi-colonna. Userai poi Faker per generare insiemi di dati realistici e coerenti e scikit-learn per creare insiemi di dati sintetici che seguono una distribuzione normale. Infine, metterai insieme tutto ciò che hai imparato nel corso combinando più tecniche per pubblicare in sicurezza insiemi di dati al pubblico.

PCA per l’anonimizzazione

Anonimizzazione di dati ad alta dimensionalità

Mascheramento dei dati con PCA

Generare insiemi di dati realistici con Faker

Insieme di dati sintetico coerente

Insiemi di dati con la stessa distribuzione probabilistica

Creare insiemi di dati sintetici con scikit-learn

Generare insiemi di dati per la classificazione

Generazione di insiemi di dati per il clustering

Rilascia in modo sicuro gli insiemi di dati al pubblico

Esplorare e pseudonimizzare un insieme di dati

Preparare i dati dei dipendenti per un rilascio sicuro

Ottimo lavoro!

Inizia il capitolo

Riservatezza dei dati e anonimizzazione in Python

Corso
completato

Ottieni Attestato di conseguimento

Aggiungi questa certificazione al tuo profilo LinkedIn, al curriculum o al CV
Condividila sui social e nella valutazione delle tue performanceIscriviti ora

Unisciti a oltre 19 milioni di studenti e inizia Riservatezza dei dati e anonimizzazione in Python oggi!

Aumenta le tue competenze sui dati con l'app di DataCamp

Avanza ovunque ti trovi con i nostri corsi per dispositivi mobili e le nostre sfide di programmazione quotidiane da 5 minuti.