Lewati ke konten utama

Kursus

Privasi Data dan Anonimisasi di Python

LanjutanTingkat Keterampilan

Diperbarui 06/2022

Pelajari cara mengolah informasi sensitif dengan teknik yang menjaga privasi.

Mulai Kursus Gratis

PythonMachine Learning

4 jam

16 videos

49 Latihan

3,850 XP

3,763

Pernyataan Pencapaian

Dipercaya oleh para pelajar di ribuan perusahaan

Melatih Tim?

Coba untuk Bisnis

Deskripsi Kursus

Privasi data tidak pernah sepenting sekarang. Namun, bagaimana Anda menyeimbangkan privasi dengan kebutuhan untuk mengumpulkan dan berbagi wawasan bisnis yang berharga? Dalam kursus ini, Anda akan mempelajari caranya, menggunakan metode yang sama seperti Google dan Amazon—termasuk generalisasi data dan model privasi seperti k-Anonymity dan differential privacy. Selain membahas topik seperti GDPR, Anda juga akan mempelajari cara membangun dan melatih model Machine Learning di Python sambil melindungi informasi sensitif pengguna seperti data karyawan dan pendapatan. Mari kita mulai!

Persyaratan

Unsupervised Learning in Python

1

Pengantar Privasi Data

Bersiaplah untuk menerapkan teknik anonimisasi seperti penekanan data, masking, pembuatan data sintetis, dan generalisasi. Pada bab ini, Anda akan belajar membedakan antara informasi identitas pribadi (PII) yang sensitif dan tidak sensitif, quasi-identifier, serta dasar-dasar GDPR. Anda juga akan melihat contoh nyata tentang apa yang bisa terjadi jika praktik terbaik ini tidak diikuti.

Apa yang bersifat privat, dan mengapa kita peduli?

Privasi adalah kekuatan

Apakah sensitif atau tidak sensitif?

Supresi atribut sensitif

Penyamaran data dan pembuatan data dengan Faker

Masking PII sensitif

Menghapus nama dengan faker

Anonimisasi dengan generalisasi data

Mengurangi risiko identifikasi dengan generalisasi

Agregasi data dan generalisasi data

Top dan bottom coding untuk gaji White House

2

Teknik Perlindungan Privasi Lanjutan

Pelajari cara menganonimkan data dengan melakukan sampling dari himpunan data yang mengikuti distribusi probabilitas kolom. Anda kemudian akan mempelajari cara menerapkan model privasi k-anonymity untuk mencegah serangan pengaitan atau re-identifikasi dan menggunakan hierarki untuk melakukan generalisasi data pada variabel kategorikal.

Menganonimkan data kategorikal

Jelajahi distribusi data

Sampling dari distribusi probabilitas yang sama

Anonimisasi data kontinu

Sebaran yang berbeda

Pengambilan sampel dari distribusi kontinu terbaik

Pengenalan K-anonymity

Atribut privasi

Generalisasi menjadi rentang

Menggeneralisasi data menggunakan hierarki

Menggunakan hierarki untuk data kategorikal

Menerapkan k-anonymity pada himpunan data

3

Differential Privacy

Pelajari differential privacy, model yang digunakan oleh perusahaan teknologi besar seperti Apple, Google, dan Uber. Pada bab ini, Anda akan mengeksplorasi data dengan membuat histogram privat dan menghitung rata-rata privat pada data. Anda juga akan membuat model Machine Learning yang berbedaial secara privat yang memungkinkan bisnis meningkatkan utilitas data mereka.

Pengantar differential privacy

Epsilon (ϵ): angka ajaib

Histogram dengan differential privacy

Anggaran privasi

Menggunakan privacy budget

Saat tidak ada anggaran tersisa

Menjelajah data dengan privacy budget accountant

Model Machine Learning dengan differential privacy

Membangun classifier yang differentially private

Memprediksi gaji

Model klastering dengan differential privacy

Pra-pemrosesan data

Segmentasi pelanggan

4

Menganonimkan dan Merilis Himpunan Data

Pada bab terakhir ini, Anda akan mempelajari cara menerapkan metode reduksi dimensi seperti principal component analysis (PCA) untuk menganonimkan himpunan data besar dengan banyak kolom. Anda kemudian akan menggunakan Faker untuk menghasilkan himpunan data yang realistis dan konsisten, serta scikit-learn untuk membuat himpunan data sintetis yang mengikuti distribusi normal. Terakhir, Anda akan menggabungkan semua yang dipelajari dalam kursus ini dengan memadukan berbagai teknik untuk merilis himpunan data ke publik secara aman.

PCA untuk anonimisasi

Anonimisasi data berdimensi tinggi

Penyamaran data dengan PCA

Membuat himpunan data realistis dengan Faker

Himpunan data sintetis yang konsisten

Himpunan data dengan distribusi probabilistik yang sama

Membuat himpunan data sintetis menggunakan scikit-learn

Menghasilkan himpunan data untuk klasifikasi

Menghasilkan himpunan data untuk pengelompokan

Merilis himpunan data ke publik secara aman

Mengeksplorasi dan membuat pseudonim pada himpunan data

Menyiapkan data karyawan untuk rilis yang aman

Kerja bagus!

Privasi Data dan Anonimisasi di Python

Kursus
Selesai

Memperoleh Surat Keterangan Prestasi

Tambahkan kredensial ini ke profil LinkedIn, resume, atau CV Anda
Bagikan di media sosial dan dalam penilaian kinerja AndaDaftar sekarang

Bergabung dengan 19 juta pelajar dan mulai Privasi Data dan Anonimisasi di Python Hari Ini!

Kembangkan keterampilan data Anda dengan DataCamp untuk Mobile

Buat kemajuan di mana saja dengan kursus mobile kami dan tantangan coding harian 5 menit.