Przejdź do głównej treści

Strona główna R

Kurs

Obsługa brakujących danych z imputacją w R

ZaawansowanyPoziom umiejętności

Zaktualizowano 10.2022

Diagnozuj, wizualizuj i uzupełniaj brakujące dane za pomocą różnych technik imputacji oraz wskazówek, jak poprawić wyniki.

Zacznij kurs za darmo

RData Manipulation

4 godz.

13 filmów

49 Ćwiczeń

4,200 XP

6,231

Zaświadczenie o ukończeniu

Uwielbiany przez kursantów z tysięcy firm

Szkolisz zespół?

Wypróbuj dla firm

Opis kursu

Brakujące dane zdarzają się wszędzie. Proces uzupełniania brakujących wartości nazywamy imputacją – umiejętność poprawnego wypełniania luk w danych jest niezbędna, jeśli chcesz tworzyć trafne prognozy i wyróżniać się na tle innych. W tym kursie nauczysz się korzystać z wizualizacji i testów statystycznych, aby rozpoznawać wzorce brakujących danych, oraz imputować dane za pomocą modeli statystycznych i uczenia maszynowego. Zdobędziesz też umiejętności decyzyjne, które pomogą ci dobrać najlepszą metodę imputacji do konkretnej sytuacji. Na koniec nauczysz się uwzględniać niepewność wynikającą z imputacji w swoich wnioskach i prognozach, czyniąc je bardziej rzetelnymi i odpornymi.

Wymagania wstępne

Intermediate Regression in R Dealing With Missing Data in R

1

Problem brakujących danych

W tym rozdziale dowiesz się, dlaczego brakujące dane mogą stanowić zagrożenie podczas analizy zbioru danych. Poznasz trzy mechanizmy powstawania braków i nauczysz się je rozpoznawać za pomocą testów statystycznych oraz narzędzi wizualizacyjnych.

Brakujące dane: co może pójść nie tak

Regresja liniowa z niekompletnymi danymi

Analiza wyników regresji

Porównywanie modeli

Mechanizmy powstawania braków danych

Rozpoznawanie mechanizmów brakujących danych

Test t dla MAR: przygotowanie danych

Test t dla MAR: interpretacja

Wizualizacja wzorców brakujących danych

Wykres agregacji

Wykres słupkowy typu spine

Wykres mozaikowy

Zacznij rozdział

2

Imputacja oparta na dawcach

Poznaj klasyfikację metod imputacji i naucz się trzech technik opartych na dawcach: imputacji średnią, hot-deck oraz k-najbliższych sąsiadów. Przyjrzysz się, jak te metody działają od środka, a następnie zastosujesz je do rzeczywistego zbioru danych pogodowych ze strefy tropikalnej. Po drodze poznasz też przydatne triki, dzięki którym metody te będą jeszcze skuteczniejsze w twoich problemach.

Imputacja średnią

Wyczuwanie zagrożeń związanych z imputacją średnią

Imputacja średnią zmiennej temperature

Ocena jakości imputacji za pomocą wykresu marginesowego

Imputacja hot-deck

Prosta imputacja hot-deck

Sztuczki i wskazówki dotyczące hot-deck I: imputacja w obrębie domen

Sztuczki i wskazówki dotyczące hot-deck II: sortowanie według skorelowanych zmiennych

Imputacja metodą k-najbliższych sąsiadów

Wybór liczby sąsiadów

Triki i wskazówki kNN I: ważenie dawców

Triki i porady dla kNN II: sortowanie zmiennych

Zacznij rozdział

3

Imputacja oparta na modelach

Czas nauczyć się, jak używać modeli statystycznych i uczenia maszynowego – takich jak regresja liniowa, regresja logistyczna czy lasy losowe – do imputacji brakujących danych. W tym rozdziale przeanalizujesz, jak modele tworzą swoje predykcje, i wykorzystasz tę wiedzę do pobierania imputowanych wartości z rozkładów warunkowych. Jest to ważne, ponieważ sprawia, że imputacje są bardziej zróżnicowane i wiarygodne, a tym samym bliższe prawdziwym danym.

Podejście do imputacji opartej na modelu

Imputacja metodą regresji liniowej

Inicjalizacja brakujących wartości i iteracja po zmiennych

Wykrywanie zbieżności

Replikowanie zmienności danych

Imputacja regresją logistyczną

Losowanie z rozkładu warunkowego

Imputacja modelowa przy różnych typach zmiennych

Imputacja oparta na drzewach decyzyjnych

Imputacja z użyciem lasów losowych

Błędy imputacji dla poszczególnych zmiennych

Kompromis między szybkością a dokładnością

Zacznij rozdział

4

Niepewność wynikająca z imputacji

Imputowane wartości nie są ostateczne. To jedynie szacunki, a każdy szacunek wiąże się z pewną niepewnością. W tym ostatnim rozdziale odkryjesz, jak bootstrapping i metoda równań łańcuchowych z pakietu mice mogą służyć do uwzględniania niepewności imputacji w modelach i analizach, czyniąc je bardziej rzetelnymi i odpornymi.

Wielokrotna imputacja metodą bootstrappingu

Łączenie imputacji i modelowania w jednej funkcji

Uruchamianie bootstrappingu

Przedziały ufności metodą bootstrapu

Wielokrotna imputacja metodą równań łańcuchowych

Przepływ mice: mice - with - pool

Wybór domyślnych modeli

Używanie macierzy predyktorów

Składamy wszystko w całość

Analiza wzorców brakujących danych

Imputacja i analiza wyników

Wnioskowanie na danych z imputacją

Uwagi końcowe

Zacznij rozdział

Obsługa brakujących danych z imputacją w R

Kurs
ukończony

Zdobądź zaświadczenie o ukończeniu

Dodaj to poświadczenie do swojego profilu LinkedIn, CV lub życiorysu
Udostępnij to w mediach społecznościowych i podczas oceny wyników pracyZapisz się teraz

Dołącz do ponad 19 milionów kursantów i zacznij Obsługa brakujących danych z imputacją w R już dziś!

Rozwijaj swoje umiejętności w zakresie danych dzięki DataCamp dla urządzeń mobilnych

Rób postępy w podróży dzięki naszym kursom mobilnym i codziennym 5-minutowym wyzwaniom kodowania.