Chuyển đến nội dung chính

Khóa học

Giới thiệu về Anomaly Detection bằng R

Trung cấpTrình độ kỹ năng

Đã cập nhật tháng 09, 2024

Học các bài kiểm tra thống kê để xác định các giá trị ngoại lệ và cách sử dụng các thuật toán đánh giá sự bất thường phức tạp.

Bắt Đầu Khóa Học Miễn Phí

RProbability & Statistics

4 gio

13 video

47 Bài tập

3,900 XP

7,338

Giấy chứng nhận Thành tích

Được người học tại hàng ngàn công ty yêu thích

Đào tạo một đội ngũ?

Dùng thử cho Doanh nghiệp

Mô tả khóa học

Bạn lo ngại về các bản ghi sai lệch hoặc đáng ngờ trong dữ liệu nhưng chưa biết bắt đầu từ đâu? Một thuật toán phát hiện bất thường (anomaly detection) có thể giúp bạn! Anomaly detection là tập hợp các kỹ thuật nhằm xác định các điểm dữ liệu khác thường, rất quan trọng để phát hiện gian lận và bảo vệ mạng máy tính trước các hoạt động độc hại. Trong khóa học này, bạn sẽ khám phá các kiểm định thống kê để nhận diện outlier và học cách dùng các thuật toán chấm điểm bất thường tiên tiến như local outlier factor và isolation forest. Bạn sẽ áp dụng các thuật toán này để tìm những chai rượu vang bất thường trong bộ dữ liệu UCI Wine Quality, đồng thời phát hiện các ca bệnh tuyến giáp dựa trên các chỉ số hormone bất thường.

Điều kiện tiên quyết

1

Phát hiện outlier bằng thống kê

Trong chương này, bạn sẽ học cách dùng các tóm tắt số liệu và đồ họa để đánh giá không chính thức xem dữ liệu có chứa điểm bất thường hay không. Bạn sẽ sử dụng một thủ tục thống kê gọi là kiểm định Grubbs để kiểm tra liệu một điểm có phải là outlier, và tìm hiểu về thuật toán Seasonal-Hybrid ESD, giúp nhận diện outlier khi dữ liệu ở dạng chuỗi thời gian.

Chúng ta nói gì khi nhắc đến các điểm bất thường?

Nhận diện các loại bất thường

Khám phá dữ liệu nitrate của sông

Kiểm định các giá trị cực đoan với phép kiểm định Grubbs

Kiểm tra trực quan tính chuẩn

Kiểm định Grubbs

Săn tìm nhiều ngoại lệ bằng kiểm định Grubbs

Bất thường trong chuỗi thời gian

Đánh giá trực quan tính mùa vụ

Thuật toán Seasonal Hybrid ESD

Diễn giải đầu ra của Seasonal-Hybrid ESD

So sánh Seasonal-Hybrid ESD và kiểm định Grubbs

Bắt Đầu Chương

2

Phát hiện bất thường dựa trên khoảng cách và mật độ

Trong chương này, bạn sẽ học cách tính khoảng cách k-nearest neighbors và local outlier factor, được dùng để xây dựng điểm số bất thường liên tục cho từng điểm dữ liệu khi dữ liệu có nhiều đặc trưng. Bạn cũng sẽ học sự khác nhau giữa bất thường cục bộ (local) và toàn cục (global), và cách mỗi thuật toán hỗ trợ trong từng trường hợp.

Điểm khoảng cách k-nearest neighbors

Khám phá rượu vang

Ma trận khoảng cách kNN

Điểm khoảng cách kNN

Trực quan hóa khoảng cách kNN

Chuẩn hóa đặc trưng

Thêm điểm kNN

Trực quan hóa điểm khoảng cách kNN

Hệ số ngoại lai cục bộ

Tính toán LOF

Trực quan hóa LOF

LOF so với kNN

Bắt Đầu Chương

3

Isolation forest

k-nearest neighbors distance và local outlier factor sử dụng khoảng cách hoặc mật độ tương đối của các láng giềng gần nhất để chấm điểm cho từng điểm dữ liệu. Trong chương này, bạn sẽ khám phá một cách tiếp cận thay thế dựa trên cây, gọi là isolation forest, một phương pháp nhanh và vững (robust) để phát hiện bất thường bằng cách đo lường mức độ dễ dàng tách biệt các điểm thông qua việc chia ngẫu nhiên dữ liệu thành các vùng ngày càng nhỏ.

Cây cô lập (Isolation trees)

Fit và dự đoán với isolation tree

Diễn giải điểm số

Isolation forest

Huấn luyện isolation forest

Kiểm tra hội tụ

Trực quan hóa điểm cách ly

Lưới các điểm

Dự đoán trên một lưới điểm

Đường đồng mức bất thường

Bắt Đầu Chương

4

So sánh hiệu năng

Bạn đã được giới thiệu một vài thuật toán chấm điểm bất thường. Ở chương cuối này, bạn sẽ học cách so sánh hiệu quả phát hiện của các thuật toán trong các tình huống có sẵn nhãn bất thường. Bạn sẽ học cách tính và diễn giải các thống kê precision và recall cho một điểm số bất thường, và cách điều chỉnh các thuật toán để có thể xử lý dữ liệu có đặc trưng phân loại (categorical).

Các bất thường có nhãn

Dữ liệu tuyến giáp

Trực quan hóa bệnh tuyến giáp

Điểm bất thường

Đo lường hiệu suất

Điểm nhị phân

Bảng chéo cho điểm nhị phân

Độ chính xác (precision) và độ bao phủ (recall) cho tuyến giáp

Làm việc với đặc trưng phân loại

Chuyển từ character sang factor

Isolation forest với factor

LOF với factor

Tổng kết

Bắt Đầu Chương

Giới thiệu về Anomaly Detection bằng R

Hoàn
Thành

Nhận Giấy Chứng Nhận Hoàn Thành

Thêm chứng chỉ này vào hồ sơ LinkedIn, CV hoặc sơ yếu lý lịch của ban
Chia sẻ trên mạng xã hội và trong đánh giá hiệu suất của banĐăng ký ngay

Tham gia cùng hơn 19 triệu học viên và bắt đầu Giới thiệu về Anomaly Detection bằng R ngay hôm nay!

Phát triển kỹ năng dữ liệu với DataCamp cho thiết bị di động

Tiến bộ mọi lúc mọi nơi với các khóa học cho thiết bị di động và thử thách lập trình 5 phút hằng ngày.