メインコンテンツへスキップ

コース

R による欠損データの補完処理

上級スキルレベル

更新日 2022/10

欠損データを診断・可視化し、さまざまな補完手法で対処。結果を改善するコツも紹介。

コースを無料で開始

RData Manipulation

4時間

13 ビデオ

49 演習

4,200 XP

6,218

修了証明書

何千もの企業の従業員が支持

チームのトレーニングを担当していますか？

Businessをお試しください

コース説明

欠損データはあらゆる場面に存在します。欠損値を埋める処理は「補完（インピュテーション）」と呼ばれ、正確な予測を行い、分析の質を高めるうえで欠かせないスキルです。このコースでは、可視化や統計的検定を活用して欠損データのパターンを把握する方法を学びます。さらに、統計モデルや機械学習モデルを使ったデータ補完の手法も習得します。どの補完方法が状況に適しているかを判断する力も身につけましょう。最後に、補完に伴う不確実性を推論や予測に組み込み、結果をより信頼性の高いものにする方法を学びます。

前提条件

Intermediate Regression in R Dealing With Missing Data in R

1

欠損データの問題

この章では、データセットの分析において欠損データがなぜリスクになるかを学びます。欠損データの3つのメカニズムを紹介し、統計的検定と可視化ツールを使ってそれらを見分ける方法を習得します。

欠損データ：何が問題になるのか

不完全なデータによる線形回帰

回帰出力の分析

モデルの比較

欠損データのメカニズム

欠損データメカニズムの見極め

MAR の t 検定：データの準備

MAR の t 検定：結果の解釈

欠損データのパターンを可視化する

集約プロット

スパインプロット

モザイクプロット

チャプターを開始

2

ドナーベースの補完

補完手法の分類体系を学び、平均値補完、ホットデック補完、k近傍法補完という3つのドナーベース手法を習得します。各手法の仕組みを詳しく確認したうえで、実際の熱帯地域の気象データセットへの適用方法を学びます。また、これらの手法をより効果的に活用するための実践的なコツも紹介します。

平均値補完

平均代入法の危険性を見抜く

気温の平均代入

マージンプロットによる補完精度の評価

ホットデック補完

基本的なホットデック法

ホットデック補完のコツとヒント I：ドメイン内での補完

ホットデック補完のコツ II：相関変数による並べ替え

k近傍法（k-Nearest-Neighbors）による補完

近傍数の選び方

kNN のコツとヒント I：ドナーの重み付け

kNN のコツとヒント II：変数の並べ替え

チャプターを開始

3

モデルベースの補完

線形回帰、ロジスティック回帰、ランダムフォレストなどの統計モデルや機械学習モデルを使って欠損データを補完する方法を学びましょう。この章では、モデルがどのように予測を行うかを深く理解し、その知識をもとに条件付き分布から補完値を導出する方法を習得します。これにより、補完値がより多様かつ妥当なものになり、実際のデータに近い結果が得られます。

モデルベースの補完アプローチ

線形回帰による補完

欠損値の初期化と変数の繰り返し処理

収束の検出

データのばらつきを再現する

ロジスティック回帰による補完

条件付き分布からのサンプリング

複数の変数タイプを用いたモデルベースの補完

木構造モデルによる補完

ランダムフォレストによる補完

変数ごとの補完誤差

速度と精度のトレードオフ

チャプターを開始

4

補完に伴う不確実性

補完値は確定した値ではありません。あくまで推定値であり、推定には必ず不確実性が伴います。この最終章では、ブートストラップ法と mice パッケージを使った連鎖方程式法により、補完の不確実性をモデルや分析に組み込み、結果をより信頼性の高いものにする方法を学びます。

ブートストラップによる多重補完

補完とモデリングを関数にまとめる

ブートストラップの実行

ブートストラップによる信頼区間の推定

チェーン方程式による多重代入

mice の流れ：mice - with - pool

デフォルトモデルの選択

予測変数行列の使い方

総まとめ

欠損データパターンの分析

欠損値の補完と結果の確認

補完データを用いた推論

チャプターを開始

R による欠損データの補完処理

コース完了

修了証明書を取得

この修了書をLinkedInや履歴書、CVに追加しましょう
ソーシャルメディアや人事評価で共有しましょう今すぐ登録

19百万人を超える学習者と共にR による欠損データの補完処理を始めましょう！

DataCamp for Mobileでデータスキルを磨きましょう

モバイルコースと毎日の 5 分間のコーディングチャレンジで、外出先でも進歩できます。