Chuyển đến nội dung chính

Khóa học

Xử lý dữ liệu thiếu trong R

Cơ bảnTrình độ kỹ năng

Đã cập nhật tháng 11, 2025

Bắt Đầu Khóa Học Miễn Phí

RData Preparation

4 gio

14 video

52 Bài tập

4,350 XP

17,212

Giấy chứng nhận Thành tích

Được người học tại hàng ngàn công ty yêu thích

Đào tạo một đội ngũ?

Dùng thử cho Doanh nghiệp

Mô tả khóa học

Dữ liệu thiếu là một phần của mọi phân tích dữ liệu thực tế. Chúng có thể xuất hiện ở những nơi không ngờ tới, khiến việc phân tích khó hiểu hơn. Trong khóa học này, bạn sẽ học cách sử dụng các công cụ của tidyverse và gói naniar trong R để trực quan hóa giá trị thiếu. Bạn sẽ dọn dẹp giá trị thiếu để có thể dùng trong phân tích và khám phá giá trị thiếu để phát hiện sai lệch trong dữ liệu. Cuối cùng, bạn sẽ làm rõ các mô thức thiếu ẩn khác. Bạn cũng sẽ học cách “điền vào chỗ trống” cho các giá trị thiếu bằng các mô hình nội suy (imputation), cũng như cách trực quan hóa, đánh giá và đưa ra quyết định dựa trên các tập dữ liệu đã được nội suy này.

Điều kiện tiên quyết

Introduction to R Introduction to the Tidyverse

1

Vì sao cần quan tâm đến dữ liệu thiếu?

Chương 1 giới thiệu về dữ liệu thiếu: giá trị thiếu là gì, cách chúng hoạt động trong R, cách phát hiện và đếm chúng. Tiếp theo, chúng ta giới thiệu các tóm tắt về dữ liệu thiếu và cách tóm tắt mức độ thiếu theo từng bản ghi, từng biến, cũng như cách khám phá theo các nhóm trong dữ liệu. Cuối cùng, chúng ta thảo luận về trực quan hóa dữ liệu thiếu: cách tạo biểu đồ tổng quan cho toàn bộ tập dữ liệu và theo biến, bản ghi, cùng các tóm tắt khác, và cách khám phá chúng theo từng nhóm.

Giới thiệu về dữ liệu khuyết

Sử dụng và tìm giá trị thiếu

Có bao nhiêu giá trị bị thiếu?

Làm việc với giá trị thiếu

Vì sao cần quan tâm đến giá trị thiếu?

Tóm tắt dữ liệu bị thiếu

Lập bảng tình trạng thiếu dữ liệu

Các tổng quan khác về dữ liệu thiếu

Chúng ta trực quan hóa giá trị thiếu như thế nào?

Hình ảnh hóa đầu tiên về dữ liệu thiếu

Trực quan hóa các trường hợp và biến bị thiếu

Trực quan hóa các mẫu thiếu dữ liệu

Bắt Đầu Chương

2

Xử lý và dọn dẹp giá trị thiếu

Trong chương hai, bạn sẽ học cách phát hiện các giá trị thiếu ẩn như “missing” hoặc “N/A” và thay chúng bằng NA. Bạn sẽ học cách xử lý hiệu quả các giá trị thiếu ngầm định — những giá trị được ngụ ý là thiếu nhưng không được liệt kê rõ ràng. Chúng tôi cũng đề cập cách khám phá sự phụ thuộc của dữ liệu thiếu, thảo luận về Missing Completely at Random (MCAR), Missing At Random (MAR), Missing Not At Random (MNAR), và ý nghĩa của chúng đối với phân tích dữ liệu của bạn.

Tìm và thay thế giá trị bị thiếu

Sử dụng miss_scan_count

Sử dụng replace_with_na

Sử dụng các biến thể phạm vi của replace_with_na

Điền giá trị xuống dưới cho các ô thiếu

Sửa thiếu ngầm định bằng complete()

Sửa giá trị thiếu tường minh bằng fill()

Kết hợp complete() và fill()

Sự phụ thuộc của dữ liệu khuyết

Sự khác nhau giữa MCAR và MAR

Khám phá sự phụ thuộc của dữ liệu thiếu

Khám phá sâu hơn sự phụ thuộc của thiếu dữ liệu

Bắt Đầu Chương

3

Kiểm định mối quan hệ của dữ liệu thiếu

Trong chương này, bạn sẽ tìm hiểu các quy trình làm việc với dữ liệu thiếu. Chúng tôi giới thiệu các cấu trúc dữ liệu đặc biệt: ma trận bóng (shadow matrix) và dữ liệu nabular, và minh họa cách dùng chúng trong quy trình khám phá dữ liệu thiếu để bạn có thể liên kết các tóm tắt về mức độ thiếu trở lại với giá trị trong dữ liệu. Bạn sẽ học cách dùng ggplot để khám phá và trực quan hóa cách giá trị thay đổi khi các biến khác bị thiếu. Cuối cùng, bạn sẽ học cách trực quan hóa mức độ thiếu trên hai biến, và cách cũng như lý do để trực quan hóa dữ liệu thiếu trong biểu đồ phân tán.

Công cụ khám phá sự phụ thuộc của dữ liệu thiếu

Tạo dữ liệu ma trận bóng (shadow matrix)

Tóm tắt theo nhóm về mức độ thiếu dữ liệu

Khám phá sâu hơn các tổ hợp thiếu dữ liệu

Trực quan hóa dữ liệu thiếu theo một biến

Dữ liệu nabular và phân tích theo tình trạng khuyết dữ liệu

Dữ liệu nabular và tóm tắt theo trạng thái thiếu

Khám phá biến thiên theo trạng thái thiếu: biểu đồ hộp

Trực quan hóa dữ liệu thiếu trên hai biến

Khám phá dữ liệu thiếu với biểu đồ phân tán

Dùng facet để khám phá dữ liệu thiếu

Phân ô (faceting) để khám phá dữ liệu thiếu (nhiều biểu đồ)

Bắt Đầu Chương

4

Nối các điểm (Nội suy/Imputation)

Trong chương này, bạn sẽ học về việc điền các giá trị còn thiếu trong dữ liệu, gọi là nội suy (imputation). Bạn sẽ học cách nội suy và theo dõi giá trị thiếu, cùng các đặc điểm tốt và hạn chế của nội suy để có thể khám phá, trực quan hóa và đánh giá dữ liệu đã nội suy so với giá trị gốc. Bạn sẽ học cách sử dụng, đánh giá và so sánh các mô hình nội suy khác nhau, và khám phá cách các mô hình nội suy khác nhau ảnh hưởng đến các kết luận bạn rút ra từ mô hình.

Điền vào chỗ trống

Bù dữ liệu dưới khoảng giá trị với dữ liệu nabular

Trực quan hóa giá trị đã bù trong biểu đồ scatter

Tạo biểu đồ histogram cho dữ liệu đã nội suy

Điều gì tạo nên một phép thế giá trị tốt

Đánh giá các phép điền khuyết kém chất lượng

Đánh giá phép bù: Thang đo

Đánh giá nội suy: Trên nhiều biến

Thực hiện phép bù (imputation)

Sử dụng simputation để nội suy dữ liệu

Đánh giá và so sánh nội suy

Đánh giá phép bù dữ liệu (nhiều mô hình & biến)

Đánh giá phép bù khuyết và mô hình

Kết hợp và so sánh nhiều mô hình nội suy

Đánh giá các tham số khác nhau trong mô hình

Bài học cuối

Bắt Đầu Chương

Xử lý dữ liệu thiếu trong R

Hoàn
Thành

Nhận Giấy Chứng Nhận Hoàn Thành

Thêm chứng chỉ này vào hồ sơ LinkedIn, CV hoặc sơ yếu lý lịch của ban
Chia sẻ trên mạng xã hội và trong đánh giá hiệu suất của banĐăng ký ngay

Tham gia cùng hơn 19 triệu học viên và bắt đầu Xử lý dữ liệu thiếu trong R ngay hôm nay!

Phát triển kỹ năng dữ liệu với DataCamp cho thiết bị di động

Tiến bộ mọi lúc mọi nơi với các khóa học cho thiết bị di động và thử thách lập trình 5 phút hằng ngày.