Chuyển đến nội dung chính

Khóa học

Phát hiện gian lận với R

Trung cấpTrình độ kỹ năng

Đã cập nhật tháng 08, 2024

Bắt Đầu Khóa Học Miễn Phí

RMachine Learning

4 gio

16 video

49 Bài tập

3,900 XP

7,568

Giấy chứng nhận Thành tích

Được người học tại hàng ngàn công ty yêu thích

Đào tạo một đội ngũ?

Dùng thử cho Doanh nghiệp

Mô tả khóa học

Hiệp hội Các nhà điều tra Gian lận được chứng nhận (ACFE) ước tính gian lận khiến các tổ chức trên toàn thế giới thiệt hại 3,7 nghìn tỷ đô la mỗi năm và một công ty điển hình mất khoảng năm phần trăm doanh thu hằng năm vì gian lận. Dự báo số vụ gian lận sẽ còn tăng trong tương lai, khiến việc phát hiện gian lận trở nên hết sức cần thiết ở hầu hết các ngành. Khóa học này sẽ cho thấy cách học các mẫu gian lận từ dữ liệu lịch sử để đối phó gian lận. Một số kỹ thuật từ thống kê vững (robust statistics) và phân tích chữ số sẽ được giới thiệu để phát hiện các quan sát bất thường có khả năng liên quan đến gian lận. Hai thách thức chính khi xây dựng công cụ giám sát (supervised) cho phát hiện gian lận là dữ liệu mất cân bằng hoặc lệch và các chi phí khác nhau cho từng loại phân loại sai. Chúng tôi trình bày các kỹ thuật để giải quyết các vấn đề này và tập trung vào cả dữ liệu nhân tạo lẫn dữ liệu thực từ nhiều ứng dụng phát hiện gian lận khác nhau.

Điều kiện tiên quyết

Unsupervised Learning in R Supervised Learning in R: Classification

1

Giới thiệu & Động lực

Chương này sẽ đưa ra định nghĩa chính thức về gian lận. Bạn sẽ học cách phát hiện các điểm bất thường trong loại phương thức thanh toán được sử dụng hoặc thời điểm thực hiện thanh toán để gắn cờ các giao dịch đáng ngờ.

Giới thiệu & Động lực

Phân bố lớp mất cân bằng

Chi phí khi không phát hiện gian lận

Đặc trưng thời gian

Biểu đồ tròn (circular histogram)

Dấu thời gian đáng ngờ

Đặc trưng tần suất

Đặc trưng tần suất cho một tài khoản

Đặc trưng tần suất cho nhiều tài khoản

Đặc trưng về độ mới (Recency)

Thuộc tính recency

So sánh tần suất & độ mới

Bắt Đầu Chương

2

Phân tích mạng xã hội

Ở chương thứ hai, bạn sẽ học cách sử dụng mạng để chống gian lận. Bạn sẽ trực quan hóa mạng và dùng một khái niệm trong xã hội học gọi là đồng tính chọn lọc (homophily) để phát hiện các giao dịch gian lận và lần ra kẻ gian.

Phân tích mạng xã hội

Phân tích một mạng lưới

Các cạnh chồng lên nhau

Gian lận và phân tích mạng xã hội

Tìm homophily trong một mạng

Trực quan hóa thuộc tính nút

Suy luận dựa trên mạng xã hội

Mô hình quan hệ vs phi quan hệ

Bộ phân loại láng giềng quan hệ

Chỉ số mạng xã hội

Bậc, độ gần và độ trung gian

Bổ sung đặc trưng mạng lưới

Bắt Đầu Chương

3

Phân phối lớp mất cân bằng

May mắn là gian lận xảy ra không nhiều. Tuy nhiên, điều này đồng nghĩa bạn sẽ làm việc với dữ liệu mất cân bằng, và nếu giữ nguyên, các mô hình phát hiện sẽ bị thiên lệch. Trong chương này, bạn sẽ xử lý mất cân bằng bằng các phương pháp lấy mẫu tăng (over-sampling) và giảm (under-sampling).

Xử lý tập dữ liệu mất cân bằng

Xử lý mất cân bằng lớp như thế nào?

Trực quan hóa các mẫu trong dữ liệu

Lấy mẫu ngẫu nhiên theo hướng over-sampling

Lấy mẫu thiếu ngẫu nhiên (random under-sampling)

Thu nhỏ nhóm chiếm đa số

Kết hợp ROS & RUS

Lấy mẫu bổ sung tổng hợp (Synthetic Over-sampling)

Bạn đã gặp SMOTE chưa?

Từ dữ liệu đến mô hình phát hiện

Tự xây dựng mô hình phát hiện của bạn

Chi phí thực sự của phát hiện gian lận

Bắt Đầu Chương

4

Phân tích chữ số và thống kê vững

Trong chương cuối, bạn sẽ tìm hiểu về một quy luật toán học đáng ngạc nhiên dùng để phát hiện các hiện tượng đáng ngờ. Sau đó, bạn sẽ dùng thống kê vững để khiến mô hình của mình “chống đạn” hơn nữa.

Phân tích chữ số với định luật Benford

Luật Benford cho chữ số đầu tiên

Mức độ phù hợp của dữ liệu điều tra dân số

Định luật Benford trong phát hiện gian lận

Mức độ phù hợp với Quy luật Benford

Yêu cầu bồi thường bảo hiểm cháy nổ

Bộ dữ liệu thanh toán

Phát hiện ngoại lệ đơn biến

Tính robust z-scores

Biểu đồ hộp (Boxplot)

Phát hiện ngoại lệ đa biến

Phát hiện ngoại lệ đa biến

Bắt Đầu Chương

Phát hiện gian lận với R

Hoàn
Thành

Nhận Giấy Chứng Nhận Hoàn Thành

Thêm chứng chỉ này vào hồ sơ LinkedIn, CV hoặc sơ yếu lý lịch của ban
Chia sẻ trên mạng xã hội và trong đánh giá hiệu suất của banĐăng ký ngay

Tham gia cùng hơn 19 triệu học viên và bắt đầu Phát hiện gian lận với R ngay hôm nay!

Phát triển kỹ năng dữ liệu với DataCamp cho thiết bị di động

Tiến bộ mọi lúc mọi nơi với các khóa học cho thiết bị di động và thử thách lập trình 5 phút hằng ngày.