Kursus
Membersihkan Data di R
MenengahTingkat Keterampilan
Diperbarui 08/2024
RData Preparation4 jam13 videos44 Latihan3,700 XP61,009Pernyataan Pencapaian
Buat Akun Gratis Anda
Lanjutkan dengan GoogleTampilkan opsi lainnyaatau
Dengan melanjutkan, Anda menerima Ketentuan Penggunaan kami, Kebijakan Privasi kami dan bahwa data Anda disimpan di Amerika Serikat.
Dipercaya oleh para pelajar di ribuan perusahaan
Melatih Tim?
Coba untuk BisnisDeskripsi Kursus
Atasi Masalah Data Umum Seperti Menghapus Duplikat di R
Sering dikatakan bahwa ilmuwan data menghabiskan 80% waktu mereka untuk membersihkan dan memanipulasi data, dan hanya 20% waktu mereka untuk menganalisisnya. Waktu yang dihabiskan untuk membersihkan data sangat penting, karena menganalisis data yang kotor dapat membuat Anda menarik kesimpulan yang tidak akurat.Dalam kursus ini, Anda akan mempelajari berbagai teknik untuk membersihkan data kotor menggunakan R. Anda akan memulai dengan mengubah tipe data, menerapkan batasan rentang, dan menangani duplikat penuh dan sebagian untuk menghindari penghitungan ganda.
Menyelami Tantangan Data Tingkat Lanjut
Setelah Anda berlatih menangani masalah data umum, Anda akan beralih ke tantangan yang lebih kompleks, seperti memastikan konsistensi dalam pengukuran dan menangani data yang hilang. Setelah setiap konsep baru, Anda akan memiliki kesempatan untuk menyelesaikan latihan praktis untuk memperkuat pemahaman Anda dan mengembangkan pengalaman Anda.Pelajari Cara Menggunakan Rekoneksi Data Selama Pembersihan Data
Rekonsiliasi Data digunakan untuk menggabungkan dataset ketika nilai-nilai dalam dataset tersebut memiliki masalah seperti kesalahan ketik atau perbedaan ejaan. Anda akan mempelajari teknik berguna ini di bab terakhir dan mempraktikkan penerapannya dengan menggabungkan dua dataset ulasan restoran menjadi satu dataset tunggal.Persyaratan
Joining Data with dplyr1
Masalah Data Umum
Di bab ini, Anda akan mempelajari cara mengatasi beberapa masalah data kotor yang paling umum. Anda akan mengonversi tipe data, menerapkan batasan rentang untuk menghapus titik data di masa depan, dan menghapus titik data yang terduplikasi untuk menghindari penghitungan ganda.
2
Data Kategorikal dan Teks
Data kategorikal dan teks sering kali menjadi bagian paling berantakan dari sebuah himpunan data karena sifatnya yang tidak terstruktur. Di bab ini, Anda akan belajar memperbaiki ketidakkonsistenan spasi kosong dan kapitalisasi pada label kategori, menggabungkan beberapa kategori menjadi satu, serta memformat ulang string agar konsisten.
3
Masalah Data Lanjutan
Di bab ini, Anda akan menyelami masalah pembersihan data yang lebih lanjut, misalnya memastikan bahwa semua bobot ditulis dalam kilogram alih-alih pon. Anda juga akan memperoleh keterampilan penting untuk membantu Anda memverifikasi bahwa nilai telah ditambahkan dengan benar dan bahwa nilai hilang tidak berdampak negatif pada analisis Anda.
4
Record Linkage
Record linkage adalah teknik yang kuat untuk menggabungkan beberapa himpunan data, digunakan ketika nilai memiliki salah ketik atau ejaan berbeda. Di bab ini, Anda akan belajar menautkan rekaman dengan menghitung kesamaan antar-string—lalu menggunakan keterampilan baru Anda untuk menggabungkan dua himpunan data ulasan restoran menjadi satu himpunan data induk yang bersih.
Membersihkan Data di R
Kursus Selesai
Memperoleh Surat Keterangan Prestasi
Tambahkan kredensial ini ke profil LinkedIn, resume, atau CV AndaBagikan di media sosial dan dalam penilaian kinerja AndaDaftar sekarang
Bergabung dengan 19 juta pelajar dan mulai Membersihkan Data di R Hari Ini!
Buat Akun Gratis Anda
Lanjutkan dengan GoogleTampilkan opsi lainnyaatau
Dengan melanjutkan, Anda menerima Ketentuan Penggunaan kami, Kebijakan Privasi kami dan bahwa data Anda disimpan di Amerika Serikat.
Kembangkan keterampilan data Anda dengan DataCamp untuk Mobile
Buat kemajuan di mana saja dengan kursus mobile kami dan tantangan coding harian 5 menit.