课程

R 的可扩展数据处理

高级技能水平

更新时间 2024年8月

学习如何使用 bigmemory 和 iotools 包，用 R 编写可扩展代码来处理大数据。

免费开始课程

RProgramming

4小时

15 视频

49 道练习

3,950 XP

6,148

成就证明

深受数千家公司学习者的喜爱

需要团队培训？

企业版试用

课程描述

数据集往往比可用的 RAM 更大，这会给 R 程序员带来问题，因为默认情况下所有变量都存储在内存中。您将学习直接从磁盘处理、探索和分析数据的工具。您还将实践 split-apply-combine 方法，并学习如何使用 bigmemory 和 iotools 包编写可扩展的代码。在本课程中，您将使用美国联邦住房金融局（Federal Housing Finance Agency）的数据，这是一个公开的数据集，记录了 2009-2015 年间由联邦国民抵押贷款协会（Fannie Mae）和联邦住房贷款抵押公司（Freddie Mac）持有或证券化的所有按揭贷款。

先决条件

Writing Efficient R Code

1

处理日益庞大的数据集

本章将说明当数据集大于可用 RAM 时，为什么需要采用新技术。我们会展示使用 R 基础函数导入和导出数据可能很慢，以及一些简单的改进方法。最后，我们将介绍 bigmemory 包。

什么是可扩展的数据处理？

为什么您的代码很慢？

处理时间如何随数据规模变化？

使用 Bigmemory 项目处理 "Out-of-Core" 对象

读取 big.matrix 对象

附加 big.matrix 对象

使用 big.matrix 对象创建列联表

使用 bigsummary 进行数据汇总

引用 vs. 拷贝

复制矩阵与大矩阵

2

使用 bigmemory 进行数据处理与分析

在您已经有了一些使用 bigmemory 的经验后，我们将讲解一些基础的数据探索与分析技术。特别是，我们将学习如何创建汇总表，并实现 split-apply-combine 方法。

Bigmemory 套件

使用 bigtable 制作列联表

按年份查看借款人种族与族裔（I）

拆分-应用-合并

女性借款者占比

使用 tidyverse 可视化结果

可视化女性借款占比

借款人收入比

整洁的大表

bigmemory 的局限性

什么时候应该使用 bigmemory？

3

使用 iotools

我们将使用 iotools 包来处理数值与字符串数据，并介绍分块（chunk-wise）处理的概念。

分块处理入门

您能用 split-compute-combine 来做吗？

可折叠运算（I）

可折叠操作（II）

初识 iotools：导入数据

比较 read.delim() 与 read.delim.raw()

读取原始数据并转换为数据结构

chunk.apply 函数

按块读取为矩阵

将分块读入为 data.frame

对 chunk.apply 的调用进行并行化

4

案例研究：住房数据的初步分析

在前面的章节中，我们介绍了住房数据，并展示了如何处理与单机可用 RAM 相当甚至更大的数据。本章将对数据做一次初步分析，比较不同时期的各类趋势。

本章分析类型概览

按种族与族裔划分的按揭数据代表性

比较借款人的种族/族裔及其占比

数据是否是随机缺失？

查找可预测的缺失

再谈一点缺失机制

分析住房数据

按年份统计借款人的种族与族裔（II）

可视化经调整的人口统计趋势

人口统计趋势的相对变化

借款人放贷趋势：城市 vs. 农村

借款人地区按年份

谁在办理联邦担保贷款？

恭喜您！

R 的可扩展数据处理

课程完成

获得成就证明

将此证书添加到您的 LinkedIn 档案、简历或履历中
在社交媒体和绩效评估中分享立即注册

加入超过19百万学习者，今天就开始R 的可扩展数据处理！

通过 DataCamp for Mobile 提升您的数据技能

随时随地通过我们的移动课程和每日 5 分钟编程挑战提升技能。