Chuyển đến nội dung chính

Khóa học

Xử lý dữ liệu khuyết bằng Imputation trong R

Nâng caoTrình độ kỹ năng

Đã cập nhật tháng 10, 2022

Bắt Đầu Khóa Học Miễn Phí

RData Manipulation

4 gio

13 video

49 Bài tập

4,200 XP

6,218

Giấy chứng nhận Thành tích

Được người học tại hàng ngàn công ty yêu thích

Đào tạo một đội ngũ?

Dùng thử cho Doanh nghiệp

Mô tả khóa học

Dữ liệu khuyết có ở khắp mọi nơi. Quy trình điền giá trị còn thiếu được gọi là imputation, và biết cách điền đúng dữ liệu khuyết là kỹ năng thiết yếu nếu bạn muốn tạo ra dự đoán chính xác và tạo khác biệt. Trong khóa học này, bạn sẽ học cách dùng trực quan hóa và kiểm định thống kê để nhận diện các mẫu dữ liệu khuyết, cũng như cách thực hiện imputation bằng một tập hợp các mô hình thống kê và Machine Learning. Bạn cũng sẽ rèn kỹ năng ra quyết định, giúp chọn phương pháp imputation phù hợp nhất cho từng tình huống. Cuối cùng, bạn sẽ học cách đưa mức độ bất định do imputation vào suy luận và dự đoán của mình để chúng vững vàng và đáng tin cậy hơn.

Điều kiện tiên quyết

Intermediate Regression in R Dealing With Missing Data in R

1

Bài toán dữ liệu khuyết

Trong chương này, bạn sẽ biết vì sao dữ liệu khuyết có thể là rủi ro khi phân tích tập dữ liệu. Bạn sẽ được giới thiệu ba cơ chế gây dữ liệu khuyết và học cách nhận diện chúng bằng kiểm định thống kê và công cụ trực quan hóa.

Dữ liệu khuyết: điều gì có thể xảy ra sai sót

Hồi quy tuyến tính với dữ liệu không đầy đủ

Phân tích đầu ra hồi quy

So sánh các mô hình

Cơ chế dữ liệu khuyết

Nhận diện cơ chế dữ liệu thiếu

Kiểm định t cho MAR: chuẩn bị dữ liệu

t-test cho MAR: diễn giải

Trực quan hóa các mẫu dữ liệu thiếu

Biểu đồ tổng hợp (aggregation plot)

Biểu đồ cột sống (spine plot)

Biểu đồ mosaic

Bắt Đầu Chương

2

Imputation dựa trên mẫu cho

Làm quen với phân loại các phương pháp imputation và học ba kỹ thuật dựa trên mẫu cho: điền trung bình, hot-deck, và k-Nearest-Neighbors. Bạn sẽ “mở nắp capo” để xem các phương pháp này vận hành thế nào trước khi áp dụng chúng vào một tập dữ liệu thời tiết nhiệt đới thực tế. Đồng thời, bạn cũng sẽ học các mẹo hữu ích để khiến chúng hoạt động hiệu quả hơn cho bài toán của bạn.

Điền giá trị thiếu bằng trung bình (Mean imputation)

Ngửi thấy rủi ro của phép nội suy theo trung bình

Bù trung bình cho nhiệt độ

Đánh giá chất lượng thế giá trị bằng biểu đồ biên (margin plot)

Bổ khuyết kiểu hot-deck

Hot-deck dạng cơ bản

Mẹo hot-deck I: nội suy theo miền (domain)

Mẹo hot-deck II: sắp xếp theo biến tương quan

Quy nạp k-Nearest-Neighbors

Chọn số lượng hàng xóm

Mẹo kNN I: gán trọng số cho donor

Mẹo kNN II: sắp xếp biến

Bắt Đầu Chương

3

Imputation dựa trên mô hình

Đến lúc học cách dùng các mô hình thống kê và Machine Learning, như hồi quy tuyến tính, hồi quy logistic, và random forest, để thực hiện imputation cho dữ liệu khuyết. Trong chương này, bạn sẽ tìm hiểu cách các mô hình đưa ra dự đoán và dùng kiến thức đó để rút giá trị điền từ các phân phối có điều kiện. Điều này quan trọng vì nó giúp các phép imputation đa dạng và hợp lý hơn, gần với dữ liệu thật hơn.

Cách tiếp cận nội suy dựa trên mô hình

Bổ sung thiếu bằng hồi quy tuyến tính

Khởi tạo giá trị thiếu & lặp qua các biến

Phát hiện hội tụ

Tái tạo độ biến thiên của dữ liệu

Bù khuyết bằng logistic regression

Lấy mẫu từ phân phối có điều kiện

Nội suy dựa trên mô hình với nhiều kiểu biến

Bù khuyết dựa trên cây (tree-based)

Điền khuyết bằng random forests

Lỗi nội suy theo biến

Đánh đổi giữa tốc độ và độ chính xác

Bắt Đầu Chương

4

Bất định từ Imputation

Các giá trị đã điền không phải bất biến. Chúng chỉ là ước lượng, và mọi ước lượng đều đi kèm bất định. Trong chương cuối, bạn sẽ khám phá cách bootstrapping và chained equations bằng gói mice có thể được dùng để đưa bất định do imputation vào mô hình và phân tích của bạn, giúp chúng đáng tin cậy và vững vàng hơn.

Bù khuyết đa lần bằng bootstrapping

Gói gọn bước điền khuyết & mô hình hóa trong một hàm

Chạy bootstrap

Bootstrapping khoảng tin cậy

Bổ khuyết đa lần bằng phương trình xích

Quy trình mice: mice - with - pool

Chọn mô hình mặc định

Sử dụng ma trận biến dự báo (predictor matrix)

Tổng hợp mọi thứ lại

Phân tích các mẫu dữ liệu khuyết

Theo dõi nội suy và kiểm tra biến đầu ra

Suy luận với dữ liệu đã bù khuyết

Lời kết

Bắt Đầu Chương

Xử lý dữ liệu khuyết bằng Imputation trong R

Hoàn
Thành

Nhận Giấy Chứng Nhận Hoàn Thành

Thêm chứng chỉ này vào hồ sơ LinkedIn, CV hoặc sơ yếu lý lịch của ban
Chia sẻ trên mạng xã hội và trong đánh giá hiệu suất của banĐăng ký ngay

Tham gia cùng hơn 19 triệu học viên và bắt đầu Xử lý dữ liệu khuyết bằng Imputation trong R ngay hôm nay!

Phát triển kỹ năng dữ liệu với DataCamp cho thiết bị di động

Tiến bộ mọi lúc mọi nơi với các khóa học cho thiết bị di động và thử thách lập trình 5 phút hằng ngày.