Chuyển đến nội dung chính
Trang chủPython

Khóa học

Làm sạch dữ liệu với Python

Trung cấpTrình độ kỹ năng
Đã cập nhật tháng 12, 2025
Học cách chẩn đoán và xử lý dữ liệu bẩn cũng như phát triển các kỹ năng cần thiết để biến dữ liệu thô của bạn thành những hiểu biết chính xác!
Bắt Đầu Khóa Học Miễn Phí
PythonData Preparation
4 gio
13 video
44 Bài tập
3,500 XP
150K+
Giấy chứng nhận Thành tích

Tạo Tài Khoản Miễn Phí

Tiếp tục với GoogleHiển thị thêm tùy chọn

hoặc


Bằng cách tiếp tục, bạn chấp nhận Điều khoản sử dụng, Chính sách bảo mật và việc dữ liệu của bạn được lưu trữ tại Hoa Kỳ.

Được người học tại hàng ngàn công ty yêu thích

Group

Đào tạo một đội ngũ?

Dùng thử cho Doanh nghiệp

Mô tả khóa học

Khám phá cách làm sạch dữ liệu trong Python

Thường được cho rằng các nhà khoa học dữ liệu dành 80% thời gian của họ cho việc làm sạch và xử lý dữ liệu, và chỉ 20% thời gian còn lại cho việc phân tích dữ liệu. Việc làm sạch dữ liệu là một bước quan trọng đối với mọi nhà khoa học dữ liệu, vì việc phân tích dữ liệu không chính xác có thể dẫn đến kết luận sai lệch.

Trong khóa học này, quý vị sẽ học cách xác định, chẩn đoán và xử lý các vấn đề liên quan đến làm sạch dữ liệu trong Python, từ cơ bản đến nâng cao. Quý vị sẽ xử lý các loại dữ liệu không phù hợp, kiểm tra xem dữ liệu có nằm trong phạm vi chính xác hay không, xử lý dữ liệu thiếu, thực hiện liên kết bản ghi và nhiều tác vụ khác!

Hướng dẫn cách làm sạch các loại dữ liệu khác nhau

Chương đầu tiên của khóa học sẽ phân tích các vấn đề dữ liệu phổ biến và cách giải quyết chúng. Quý vị sẽ bắt đầu bằng việc nắm vững các kiểu dữ liệu cơ bản và cách xử lý từng loại một cách riêng biệt. Sau đó, quý vị sẽ áp dụng các giới hạn phạm vi và loại bỏ các điểm dữ liệu trùng lặp.

Chương cuối cùng trình bày về kỹ thuật liên kết dữ liệu, một công cụ mạnh mẽ để hợp nhất nhiều bộ dữ liệu. Quý vị sẽ học cách liên kết các bản ghi bằng cách tính toán mức độ tương đồng giữa các chuỗi ký tự. Cuối cùng, quý vị sẽ áp dụng các kỹ năng mới học được để kết hợp hai bộ dữ liệu đánh giá nhà hàng thành một bộ dữ liệu chính thống nhất và sạch sẽ.

Tăng cường sự tự tin trong việc làm sạch dữ liệu

Sau khi hoàn thành khóa học, quý vị sẽ có đủ tự tin để xử lý dữ liệu từ các nguồn khác nhau và sử dụng kỹ thuật liên kết bản ghi để hợp nhất nhiều bộ dữ liệu. Việc làm sạch dữ liệu là một kỹ năng quan trọng đối với các nhà khoa học dữ liệu. Nếu quý vị muốn tìm hiểu thêm về việc làm sạch dữ liệu trong Python và các ứng dụng của nó, vui lòng tham khảo các chủ đề sau: Chuyên gia phân tích dữ liệu sử dụng Python và nhập liệu & làm sạch dữ liệu bằng Python.

Điều kiện tiên quyết

Python ToolboxJoining Data with pandas
1

Các vấn đề dữ liệu thường gặp

Trong chương này, bạn sẽ học cách vượt qua một số vấn đề dữ liệu bẩn thường gặp. Bạn sẽ chuyển đổi kiểu dữ liệu, áp dụng ràng buộc phạm vi để loại bỏ các điểm dữ liệu thuộc tương lai, và xóa các điểm dữ liệu trùng lặp để tránh đếm hai lần.
Bắt Đầu Chương
2

Vấn đề với dữ liệu văn bản và dữ liệu phân loại

Dữ liệu phân loại và văn bản thường là phần lộn xộn nhất của một tập dữ liệu do tính chất phi cấu trúc. Trong chương này, bạn sẽ học cách sửa lỗi khoảng trắng và không thống nhất về viết hoa trong nhãn hạng mục, gộp nhiều hạng mục thành một, và định dạng lại chuỗi để đảm bảo tính nhất quán.
Bắt Đầu Chương
3

Các vấn đề dữ liệu nâng cao

Trong chương này, bạn sẽ đi sâu vào các vấn đề làm sạch dữ liệu nâng cao hơn, chẳng hạn đảm bảo tất cả khối lượng đều được ghi bằng kilogram thay vì pound. Bạn cũng sẽ học được những kỹ năng vô giá giúp bạn xác minh rằng các giá trị đã được cộng đúng và giá trị thiếu không ảnh hưởng tiêu cực đến phân tích của bạn.
Bắt Đầu Chương
4

Liên kết bản ghi

Liên kết bản ghi là một kỹ thuật mạnh mẽ dùng để gộp nhiều tập dữ liệu với nhau khi giá trị có lỗi chính tả hoặc cách viết khác nhau. Trong chương này, bạn sẽ học cách liên kết bản ghi bằng cách tính độ tương đồng giữa các chuỗi — sau đó bạn sẽ dùng kỹ năng mới để nối hai tập dữ liệu đánh giá nhà hàng thành một tập dữ liệu chuẩn, sạch duy nhất.
Bắt Đầu Chương
Làm sạch dữ liệu với Python
Hoàn
Thành

Nhận Giấy Chứng Nhận Hoàn Thành

Thêm chứng chỉ này vào hồ sơ LinkedIn, CV hoặc sơ yếu lý lịch của ban
Chia sẻ trên mạng xã hội và trong đánh giá hiệu suất của ban
Đăng ký ngay

Tham gia cùng hơn 19 triệu học viên và bắt đầu Làm sạch dữ liệu với Python ngay hôm nay!

Tạo Tài Khoản Miễn Phí

Tiếp tục với GoogleHiển thị thêm tùy chọn

hoặc


Bằng cách tiếp tục, bạn chấp nhận Điều khoản sử dụng, Chính sách bảo mật và việc dữ liệu của bạn được lưu trữ tại Hoa Kỳ.

Phát triển kỹ năng dữ liệu với DataCamp cho thiết bị di động

Tiến bộ mọi lúc mọi nơi với các khóa học cho thiết bị di động và thử thách lập trình 5 phút hằng ngày.