Chuyển đến nội dung chính

Khóa học

Web Scraping bằng R

Trung cấpTrình độ kỹ năng

Đã cập nhật tháng 04, 2024

Học cách thu thập và tải xuống dữ liệu từ bất kỳ trang web nào một cách hiệu quả bằng R.

Bắt Đầu Khóa Học Miễn Phí

RData Preparation

4 gio

13 video

45 Bài tập

3,600 XP

15,001

Giấy chứng nhận Thành tích

Được người học tại hàng ngàn công ty yêu thích

Đào tạo một đội ngũ?

Dùng thử cho Doanh nghiệp

Mô tả khóa học

Bạn đã từng gặp một trang web hiển thị rất nhiều dữ liệu như thống kê, đánh giá sản phẩm hoặc giá cả theo định dạng không sẵn sàng cho việc phân tích dữ liệu chưa? Thông thường, các cơ quan và nhà cung cấp dữ liệu khác công bố dữ liệu của họ trong các bảng được định dạng gọn gàng. Tuy nhiên, không phải trang nào cũng có nút tải xuống — nhưng đừng lo. Trong khóa học này, bạn sẽ học cách thu thập và tải dữ liệu từ bất kỳ trang web nào bằng R một cách hiệu quả. Bạn sẽ học cách tự động hóa việc thu thập và phân tích Wikipedia bằng các gói rvest và httr. Qua các bài tập thực hành, bạn cũng sẽ mở rộng hiểu biết về HTML và CSS — những khối xây dựng của trang web — đồng thời giúp quy trình thu thập dữ liệu của bạn ít lỗi hơn và hiệu quả hơn.

Điều kiện tiên quyết

Intermediate R Introduction to the Tidyverse

1

Giới thiệu về HTML và Web Scraping

Trong chương này, bạn sẽ được giới thiệu về Hyper Text Markup Language (HTML), một ngôn ngữ khai báo dùng để cấu trúc các trang web hiện đại. Sử dụng thư viện rvest, bạn sẽ học cách truy vấn các phần tử HTML đơn giản và thu thập bảng đầu tiên của mình.

Giới thiệu về HTML

Đọc HTML

Cẩn thận lỗi cú pháp!

Điều hướng HTML

Chọn tất cả phần tử con của một danh sách

Phân tích (parse) siêu liên kết thành một data frame

Thu thập bảng đầu tiên của bạn

Thứ tự đúng của các phần tử bảng

Chuyển một bảng thành data frame với html_table()

Bắt Đầu Chương

2

Điều hướng và chọn với CSS

Cascading Style Sheets (CSS) mô tả cách các phần tử HTML được hiển thị trên trang web, bao gồm màu sắc, phông chữ và bố cục tổng thể. Trong chương này, bạn sẽ học vì sao bộ chọn (selector) và bộ kết hợp (combinator) của CSS là thành phần then chốt cho web scraping.

Giới thiệu về CSS

Chọn nhiều kiểu HTML

Sắp xếp các bộ chọn CSS theo số lượng kết quả

Lớp và ID trong CSS

Xác định đúng loại bộ chọn

Tận dụng tính duy nhất của ID

Chọn phần tử con cuối cùng bằng pseudo-class

Bộ kết hợp CSS

Chọn phần tử con trực tiếp với bộ kết hợp child

Có bao nhiêu phần tử được trả về?

Đơn giản mà đỉnh!

Không phải anh chị em nào cũng giống nhau

Bắt Đầu Chương

3

Lựa chọn nâng cao với XPATH

Các bộ chọn CSS bạn đã biết ở chương trước rất mạnh nhưng cũng có giới hạn. Ví dụ, khi bạn muốn chọn các nút dựa trên thuộc tính của phần tử con cháu của chúng. Lúc này XPath sẽ cứu nguy! Với ngôn ngữ truy vấn này, bạn có thể điều hướng và thu thập dữ liệu ngay cả từ HTML rối rắm nhất.

Giới thiệu về XPATH

Tìm CSS tương đương chính xác

Chọn theo class và ID với XPATH

Dùng predicate để chọn node dựa trên con của chúng

Hàm XPATH và bộ định ngữ nâng cao

Tìm một lựa chọn XPATH tinh gọn hơn

Làm quen với hàm position()

Trích xuất các nút dựa trên số lượng phần tử con của chúng

Hàm text() trong XPATH

Hạn chế của html_table() với các bảng có cấu trúc kém

Chọn trực tiếp từ phần tử cha với text() của XPATH

Kết hợp dữ liệu đã trích xuất vào một data frame

Trích xuất phần tử dựa trên văn bản của nó

Bắt Đầu Chương

4

Thực hành tốt khi Web Scraping

Giờ bạn đã biết cách trích xuất nội dung từ các trang web, đã đến lúc nhìn “hậu trường”. Trong chương cuối, bạn sẽ học vì sao các yêu cầu HTTP là nền tảng của mọi hành động scraping và cách tùy chỉnh chúng để tuân thủ các thực hành tốt nhất trong web scraping.

Bản chất của các yêu cầu HTTP

Phát biểu nào sau đây về HTTP là sai?

Làm theo cách của httr

Houston, chúng ta nhận 404 rồi!

Khai báo danh tính bằng user agent tùy chỉnh

Xem user agent của bạn

Thêm một user agent tùy chỉnh

Cách gửi yêu cầu một cách nhẹ nhàng và làm chậm tốc độ

Đối số tùy chỉnh cho các hàm bị giới hạn tốc độ

Áp dụng throttling cho trình thu thập nhiều trang

Tổng kết: Web Scraping trong R

Bắt Đầu Chương

Web Scraping bằng R

Hoàn
Thành

Nhận Giấy Chứng Nhận Hoàn Thành

Thêm chứng chỉ này vào hồ sơ LinkedIn, CV hoặc sơ yếu lý lịch của ban
Chia sẻ trên mạng xã hội và trong đánh giá hiệu suất của banĐăng ký ngay

Tham gia cùng hơn 19 triệu học viên và bắt đầu Web Scraping bằng R ngay hôm nay!

Phát triển kỹ năng dữ liệu với DataCamp cho thiết bị di động

Tiến bộ mọi lúc mọi nơi với các khóa học cho thiết bị di động và thử thách lập trình 5 phút hằng ngày.