Sari la conținutul principal

Curs

Confidențialitatea datelor și anonimizarea în Python

AvansatNivel de competențe

Actualizat 06.2022

Învață să procesezi informații sensibile cu tehnici care protejează confidențialitatea.

Începe cursul gratuit

PythonMachine Learning

4 h

16 videoclipuri

49 Exerciții

3,850 XP

3,763

Certificat de realizare

Îndrăgit de cursanți din mii de companii

Formare pentru o echipă?

Încearcă pentru afaceri

Descrierea cursului

Confidențialitatea datelor este mai importantă ca oricând. Dar cum echilibrezi nevoia de protecție a datelor cu cea de a extrage și partaja informații valoroase despre afaceri? În acest curs, vei învăța exact cum să faci asta, folosind aceleași metode ca Google și Amazon — inclusiv generalizarea datelor și modele de confidențialitate, precum k-Anonimitate și confidențialitate diferențială. Pe lângă subiecte precum GDPR, vei descoperi și cum să construiești și să antrenezi modele de învățare automată în Python, protejând în același timp informațiile sensibile ale utilizatorilor, cum ar fi datele despre angajați și venituri. Să începem!

Cerințe prealabile

Unsupervised Learning in Python

1

Introducere în confidențialitatea datelor

Pregătește-te să aplici tehnici de anonimizare precum suprimarea datelor, mascarea, generarea de date sintetice și generalizarea. În acest capitol, vei învăța să faci distincția între informațiile de identificare personală (PII) sensibile și cele non-sensibile, să recunoști cvasi-identificatorii și să înțelegi elementele de bază ale GDPR. Vei întâlni și exemple din viața reală despre ce se poate întâmpla dacă nu respecți aceste bune practici.

Ce este privat și de ce contează?

Confidențialitatea înseamnă putere

Sensibil sau non-sensibil?

Suprimarea atributelor sensibile

Mascarea datelor și generarea de date cu Faker

Mascarea datelor PII sensibile

Eliminarea numelor cu faker

Anonimizare prin generalizarea datelor

Reducerea riscului de identificare prin generalizare

Agregarea datelor și generalizarea datelor

Codificarea superioară și inferioară a salariilor de la Casa Albă

Începe capitolul

2

Mai multe tehnici de protecție a confidențialității

Descoperă cum să anonimizezi date prin eșantionare din seturi de date care urmează distribuția de probabilitate a coloanelor. Vei învăța apoi să aplici modelul de confidențialitate k-anonimitate pentru a preveni atacurile de conectare sau re-identificare și să folosești ierarhii pentru a realiza generalizarea datelor în variabile categorice.

Anonimizarea datelor categorice

Explorează distribuția datelor

Eșantionare din aceeași distribuție de probabilitate

Anonimizarea datelor continue

Distribuții diferite

Eșantionare din cea mai potrivită distribuție continuă

Introducere în K-anonimitate

Atribute de confidențialitate

Generalizare în intervale

Generalizarea datelor cu ajutorul ierarhiilor

Folosirea ierarhiilor pentru date categorice

Aplicarea k-anonimității unui set de date

Începe capitolul

3

Confidențialitate diferențială

Află despre confidențialitatea diferențială, modelul folosit de companii tehnologice importante precum Apple, Google și Uber. În acest capitol, vei explora date prin generarea de histograme private și calcularea mediilor private. Vei crea și modele de învățare automată cu confidențialitate diferențială, care permit companiilor să crească utilitatea datelor lor.

Introducere în confidențialitatea diferențială

Epsilon (ϵ): numărul magic

Histograme cu confidențialitate diferențială

Bugete de confidențialitate

Utilizarea bugetelor de confidențialitate

Când bugetul de confidențialitate s-a epuizat

Explorarea datelor cu un contabil al bugetului de confidențialitate

Modele de machine learning cu confidențialitate diferențială

Construiește un clasificator cu confidențialitate diferențială

Predicția salariilor

Modele de clustering cu confidențialitate diferențială

Preprocesarea datelor

Segmentarea clienților

Începe capitolul

4

Anonimizarea și publicarea seturilor de date

În acest capitol final, vei învăța să aplici metode de reducere a dimensionalității, precum analiza componentelor principale (PCA), pentru a anonimiza seturi de date mari cu multe coloane. Vei folosi apoi Faker pentru a genera seturi de date realiste și coerente, și scikit-learn pentru a crea seturi de date sintetice care urmează o distribuție normală. În final, vei combina toate tehnicile învățate în acest curs pentru a publica seturi de date în mod sigur.

PCA pentru anonimizare

Anonimizarea datelor de înaltă dimensionalitate

Mascarea datelor cu PCA

Generarea seturilor de date realiste cu Faker

Set de date sintetic consistent

Seturi de date cu aceeași distribuție probabilistică

Crearea seturilor de date sintetice cu scikit-learn

Generarea seturilor de date pentru clasificare

Generarea seturilor de date pentru clustering

Publică seturi de date în siguranță

Explorarea și pseudonimizarea unui set de date

Pregătirea datelor despre angajați pentru publicare în siguranță

Începe capitolul

Confidențialitatea datelor și anonimizarea în Python

Curs
finalizat

Obține diploma de absolvire

Adaugă această acreditare la profilul tău LinkedIn, CV sau rezumat
Distribuie pe rețelele de socializare și în evaluarea ta de performanțăÎnscrie-te acum

Alătură-te celor peste 19 de milioane de cursanți și începe Confidențialitatea datelor și anonimizarea în Python astăzi!

Dezvoltați-vă abilitățile de gestionare a datelor cu DataCamp pentru mobil

Fă progrese din mers cu cursurile noastre mobile și provocările zilnice de programare de 5 minute.