课程

R 中的降维

基础技能水平

更新时间 2024年12月

学习 R 中的降维技术，掌握特征选择和特征提取，用于你自己的数据和模型。

免费开始课程

RMachine Learning

4小时

16 视频

56 道练习

4,600 XP

2,763

成就证明

深受数千家公司学习者的喜爱

需要团队培训？

企业版试用

课程描述

你是否曾经处理过特征数量多得令人不知所措的数据集？你真的需要所有那些功能吗？哪些是最重要的？在本课程中，您将学习降维技术，这些技术将帮助您简化数据以及您用数据构建的模型，同时保留原始数据中的信息并保持良好的预测性能。

为什么学习降维？

我们生活在信息时代——一个信息过载的时代。从数据中提取关键信息的能力是一项极具市场价值的技能。模型在减少的数据上训练更快。在生产环境中，更小的模型意味着更快的响应时间。或许最重要的是，更小的数据和模型通常更容易理解。降维是数据科学中的奥卡姆剃刀。

你将在这门课程中学到什么？

特征选择与特征提取的区别！使用 R，您将学习如何识别并移除信息量低或冗余的特征，保留信息量最大的特征。这就是特征选择。您还将学习如何将特征组合提取为包含最大信息的压缩组件。这就是特征提取！

但最重要的是，借助 R 的新 tidymodel 包，你将使用真实世界数据构建特征更少、却不会显著牺牲性能的模型。

先决条件

Modeling with tidymodels in R

1

降维基础

准备好简化大型数据集吧！您将学习信息的概念、如何评估特征重要性，并练习识别低信息量特征。学完本章，您将理解特征选择与特征提取——这两类降维方法之间的区别。

降维入门

维度与特征信息

互信息特征

信息与特征重要性

计算根节点熵

计算子节点的熵

按颜色计算信息增益

数据与模型构建中降维的重要性

计算可能的组合数

维度诅咒、过拟合与偏差

2

面向特征重要性的特征选择

学习如何通过缺失值比例、方差和相关性来识别信息丰富与信息稀缺的特征。随后，您将了解如何构建 tidymodels 的 recipes，利用这些信息指标来进行特征选择。

特征选择 vs. 特征提取

创建零方差筛选器

创建缺失值过滤器

结合筛选器进行特征选择

基于缺失值进行选择

创建缺失值比例过滤器

应用缺失值占比筛选器

创建缺失值配方

基于方差的选择

创建低方差筛选器

创建低方差的 recipe

基于与其他特征的相关性进行选择

识别高度相关的特征

选择要移除的相关特征

创建高相关性 recipe

3

面向模型性能的特征选择

第 3 章将介绍无监督与有监督特征选择方法的区别。您将回顾如何使用 tidymodels 的 workflows 来构建模型。接着，您将通过 lasso 回归与随机森林模型执行有监督特征选择。

有监督特征选择

监督 vs. 非监督特征选择

决策树的特征选择类型

使用 tidymodels 构建与评估模型

划分训练集与测试集

创建配方-模型工作流

拟合、探索并评估模型

Lasso 回归

为 lasso 回归缩放数据

探索 lasso 回归的惩罚系数

调优 penalty 超参数

拟合最佳模型

随机森林模型

创建完整的随机森林模型

使用特征重要性来减少数据

创建精简版随机森林

4

特征提取与模型性能

在最后一章，您将通过理解主成分如何从不同特征中提取并组合最重要的信息，来建立对特征提取的直观认识。随后学习并应用三类特征提取方法——主成分分析（PCA）、t-SNE 和 UMAP。了解如何在 tidymodels 的建模流程中，将这些特征提取方法作为预处理步骤使用。

特征提取基础——主成分

理解主成分

为主成分命名

主成分分析（PCA）

PCA：方差解释

将特征映射到主成分

tidymodels 中的 PCA

t-分布随机邻域嵌入（t-SNE）

用 PCA 区分房价

用 t-SNE 区分房价

Uniform Manifold Approximation and Projection (UMAP)

用 UMAP 区分房价

在决策树模型中使用 UMAP 降维

评估 UMAP 决策树模型

R 中的降维

课程完成

获得成就证明

将此证书添加到您的 LinkedIn 档案、简历或履历中
在社交媒体和绩效评估中分享立即注册

加入超过19百万学习者，今天就开始R 中的降维！

通过 DataCamp for Mobile 提升您的数据技能

随时随地通过我们的移动课程和每日 5 分钟编程挑战提升技能。