Cours
Confidentialité des données et anonymisation en Python
AvancéNiveau de compétence
Actualisé 06/2022PythonMachine Learning4 h16 vidéos49 Exercices3,850 XP3,648Certificat de réussite.
Créez votre compte gratuit
ou
En continuant, vous acceptez nos Conditions d'utilisation, notre Politique de confidentialité et le fait que vos données seront hébergées aux États-Unis.Apprécié par des utilisateurs provenant de milliers d'entreprises
Former 2 personnes ou plus ?
Essayez DataCamp for BusinessDescription du cours
Prérequis
Unsupervised Learning in Python1
Introduction à la confidentialité des données
Préparez-vous à appliquer des techniques d’anonymisation comme la suppression de données, le masquage, la génération de données synthétiques et la généralisation. Dans ce chapitre, vous apprendrez à distinguer les informations personnellement identifiables (PII) sensibles et non sensibles, les quasi-identifiants, ainsi que les bases du RGPD. Vous verrez aussi des exemples concrets de ce qui peut mal tourner si ces bonnes pratiques ne sont pas respectées.
2
Aller plus loin avec les techniques de protection de la vie privée
Découvrez comment anonymiser des données en échantillonnant des jeux de données selon la distribution de probabilité des colonnes. Vous apprendrez ensuite à appliquer le modèle de confidentialité k-anonymat pour prévenir les attaques de recoupement ou de réidentification, et à utiliser des hiérarchies pour généraliser des variables catégorielles.
3
Differential Privacy
Découvrez la differential privacy, un modèle utilisé par de grandes entreprises technologiques comme Apple, Google et Uber. Dans ce chapitre, vous explorerez les données en générant des histogrammes privés et en calculant des moyennes privées. Vous créerez également des modèles de Machine Learning différentiellement privés qui permettent aux entreprises d’augmenter l’utilité de leurs données.
4
Anonymiser et publier des jeux de données
Dans ce dernier chapitre, vous apprendrez à appliquer des méthodes de réduction de dimensionnalité telles que l’analyse en composantes principales (PCA) pour anonymiser de grands jeux de données multicolonnes. Vous utiliserez ensuite Faker pour générer des jeux de données réalistes et cohérents, et scikit-learn pour créer des jeux de données synthétiques suivant une distribution normale. Enfin, vous rassemblerez tout ce que vous avez appris dans ce cours en combinant plusieurs techniques afin de publier des jeux de données en toute sécurité.
Confidentialité des données et anonymisation en Python
Cours terminé
Obtenez un certificat de réussite
Ajoutez cette certification à votre profil LinkedIn, à votre CV ou à votre portfolioPartagez-la sur les réseaux sociaux et dans votre évaluation de performance
Inclus avecPremium or Teams
S'inscrire MaintenantRejoignez plus de 19 millions d'utilisateurs et commencez Confidentialité des données et anonymisation en Python dès aujourd'hui !
Créez votre compte gratuit
ou
En continuant, vous acceptez nos Conditions d'utilisation, notre Politique de confidentialité et le fait que vos données seront hébergées aux États-Unis.