跳至内容
首页Python

课程

Python 数据清洗

中级技能水平
更新时间 2025年12月
学习诊断和处理脏数据,并掌握将原始数据转化为准确洞察所需的技能!
免费开始课程
PythonData Preparation
4小时
13 视频
44 道练习
3,500 XP
150K+
成就证明

创建您的免费帐户

继续使用 Google显示更多选项


继续操作即表示您接受我们的《使用条款》和《隐私政策》,并同意您的数据存储在美国。

深受数千家公司学习者的喜爱

Group

需要团队培训?

企业版试用

课程描述

了解如何在 Python 中清洗数据

人们常说,数据科学家80%的时间都在清洗和处理数据,只有20%的时间用于分析数据。 数据清洗是每位数据科学家的必备步骤,因为分析脏数据可能会导致不准确的结论。

在本课程中,你将学习如何在 Python 中识别、诊断并处理各种数据清洗问题,从简单到高级。 你将处理不正确的数据类型,检查数据是否处于正确范围,处理缺失数据,执行记录链接,以及更多内容!

学习如何清理不同类型的数据

课程的第一章探讨常见的数据问题以及你可以如何修复它们。 你将首先了解基本数据类型,以及如何分别处理它们。 之后,你将应用范围约束并删除重复的数据点。

最后一章探讨记录链接,这是一种用于合并多个数据集的强大工具。 你将学习如何通过计算字符串之间的相似度来关联记录。 最后,你将运用新学到的技能,把两个餐厅评论数据集合并为一个干净的主数据集。

掌握数据清洗的信心

在课程结束时,您将有信心清理各种类型的数据,并使用记录链接来合并多个数据集。 数据清洗是数据科学家的一项必备技能。 如果你想进一步了解如何在 Python 中清洗数据及其应用,请查看以下学习路径: 使用 Python 的数据科学家以及使用 Python 导入和清洗数据。

先决条件

Python ToolboxJoining Data with pandas
1

Common data problems

In this chapter, you'll learn how to overcome some of the most common dirty data problems. You'll convert data types, apply range constraints to remove future data points, and remove duplicated data points to avoid double-counting.
开始章节
2

Text and categorical data problems

Categorical and text data can often be some of the messiest parts of a dataset due to their unstructured nature. In this chapter, you’ll learn how to fix whitespace and capitalization inconsistencies in category labels, collapse multiple categories into one, and reformat strings for consistency.
开始章节
3

Advanced data problems

In this chapter, you'll dive into more advanced data cleaning problems, such as ensuring that weights are all written in kilograms instead of pounds. You'll also gain invaluable skills that will help you verify that values have been added correctly, and that missing values don't negatively impact your analyses.
开始章节
4

Record linkage

Record linkage is a powerful technique used to merge multiple datasets together, used when values have typos or different spellings. In this chapter, you'll learn how to link records by calculating the similarity between strings—you'll then use your new skills to join two restaurant review datasets into one clean master dataset.
开始章节
Python 数据清洗
课程完成

获得成就证明

将此证书添加到您的 LinkedIn 档案、简历或履历中
在社交媒体和绩效评估中分享
立即注册

加入超过19百万学习者,今天就开始Python 数据清洗!

创建您的免费帐户

继续使用 Google显示更多选项


继续操作即表示您接受我们的《使用条款》和《隐私政策》,并同意您的数据存储在美国。

通过 DataCamp for Mobile 提升您的数据技能

随时随地通过我们的移动课程和每日 5 分钟编程挑战提升技能。