Kurs
Czyszczenie danych w R
ŚredniozaawansowanyPoziom umiejętności
Zaktualizowano 08.2024
RData Preparation4 godz.13 filmów44 Ćwiczenia3,700 XP60,935Zaświadczenie o ukończeniu
Utwórz bezpłatne konto
Kontynuuj z GooglePokaż więcej opcjilub
Kontynuując, akceptujesz nasze Warunki korzystania, naszą Politykę prywatności oraz to, że Twoje dane są przechowywane w USA.
Uwielbiany przez kursantów z tysięcy firm
Szkolisz zespół?
Wypróbuj dla firmOpis kursu
Pokonaj typowe problemy z danymi, takie jak usuwanie duplikatów w R
Powszechnie mówi się, że data scientist spędzają 80% swojego czasu na czyszczeniu i przekształcaniu danych, a tylko 20% na ich analizie. Czas poświęcony na czyszczenie danych jest kluczowy, ponieważ analiza nieczystych danych może prowadzić do wyciągania nieprawidłowych wniosków.W tym kursie nauczysz się różnych technik, które pomogą Ci czyścić nieczyste dane za pomocą R. Zaczniesz od konwertowania typów danych, stosowania ograniczeń zakresu i radzenia sobie z pełnymi oraz częściowymi duplikatami, aby uniknąć podwójnego liczenia.
Zanurz się w zaawansowane wyzwania związane z danymi
Gdy już poćwiczysz pracę nad typowymi problemami z danymi, przejdziesz do bardziej zaawansowanych wyzwań, takich jak zapewnianie spójności pomiarów i radzenie sobie z brakującymi danymi. Po każdym nowym zagadnieniu będziesz mieć okazję wykonać praktyczne ćwiczenie, aby utrwalić wiedzę i zdobyć doświadczenie.Naucz się wykorzystywać record linkage podczas czyszczenia danych
Łączenie rekordów służy do scalania zbiorów danych, gdy wartości zawierają problemy, takie jak literówki lub różne pisownie. W ostatnim rozdziale poznasz tę przydatną technikę i przećwiczysz jej zastosowanie, łącząc dwa zbiory danych z recenzjami restauracji w jeden zbiór danych.Wymagania wstępne
Joining Data with dplyr1
Common Data Problems
In this chapter, you'll learn how to overcome some of the most common dirty data problems. You'll convert data types, apply range constraints to remove future data points, and remove duplicated data points to avoid double-counting.
2
Categorical and Text Data
Categorical and text data can often be some of the messiest parts of a dataset due to their unstructured nature. In this chapter, you’ll learn how to fix whitespace and capitalization inconsistencies in category labels, collapse multiple categories into one, and reformat strings for consistency.
3
Advanced Data Problems
In this chapter, you’ll dive into more advanced data cleaning problems, such as ensuring that weights are all written in kilograms instead of pounds. You’ll also gain invaluable skills that will help you verify that values have been added correctly and that missing values don’t negatively impact your analyses.
4
Record Linkage
Record linkage is a powerful technique used to merge multiple datasets together, used when values have typos or different spellings. In this chapter, you'll learn how to link records by calculating the similarity between strings—you’ll then use your new skills to join two restaurant review datasets into one clean master dataset.
Czyszczenie danych w R
Kurs ukończony
Zdobądź zaświadczenie o ukończeniu
Dodaj to poświadczenie do swojego profilu LinkedIn, CV lub życiorysuUdostępnij to w mediach społecznościowych i podczas oceny wyników pracyZapisz się teraz
Dołącz do ponad 19 milionów kursantów i zacznij Czyszczenie danych w R już dziś!
Utwórz bezpłatne konto
Kontynuuj z GooglePokaż więcej opcjilub
Kontynuując, akceptujesz nasze Warunki korzystania, naszą Politykę prywatności oraz to, że Twoje dane są przechowywane w USA.
Rozwijaj swoje umiejętności w zakresie danych dzięki DataCamp dla urządzeń mobilnych
Rób postępy w podróży dzięki naszym kursom mobilnym i codziennym 5-minutowym wyzwaniom kodowania.