Chuyển đến nội dung chính

Khóa học

Nhập môn Xử lý Ngôn ngữ Tự nhiên với R

Trung cấpTrình độ kỹ năng

Đã cập nhật tháng 05, 2024

Bắt Đầu Khóa Học Miễn Phí

RMachine Learning

4 gio

15 video

47 Bài tập

3,750 XP

8,548

Giấy chứng nhận Thành tích

Được người học tại hàng ngàn công ty yêu thích

Đào tạo một đội ngũ?

Dùng thử cho Doanh nghiệp

Mô tả khóa học

Giống như mọi khóa học nền tảng, Nhập môn Xử lý Ngôn ngữ Tự nhiên với R được thiết kế để trang bị cho bạn các công cụ cần thiết để bắt đầu hành trình phân tích văn bản. Natural language processing (NLP) là một lĩnh vực luôn phát triển trong khoa học dữ liệu, với nhiều bước tiến thú vị trong thập kỷ qua. Khóa học này sẽ bao quát những kiến thức cơ bản và giúp bạn sẵn sàng mở rộng năng lực phân tích. Chúng ta sẽ tìm hiểu regular expressions, topic modeling, named entity recognition và các nội dung khác, đi kèm các ví dụ chi tiết mà bạn có thể dùng để khởi động những phân tích sau này.

Điều kiện tiên quyết

Intermediate R Introduction to the Tidyverse

1

Những nền tảng cốt lõi

Chương 1 của Nhập môn Xử lý Ngôn ngữ Tự nhiên chuẩn bị cho bạn chạy phân tích văn bản đầu tiên. Bạn sẽ khám phá regular expressions và tokenization, hai thành phần phổ biến nhất trong hầu hết các tác vụ phân tích. Với regular expressions, bạn có thể tìm kiếm bất kỳ mẫu nào bạn nghĩ đến; còn với tokenization, bạn có thể chuẩn bị và làm sạch văn bản cho các phân tích nâng cao hơn. Chương này là bước đệm cần thiết để xử lý các kỹ thuật mà chúng ta sẽ học ở những chương tiếp theo của khóa học.

Những điều cơ bản về biểu thức chính quy

Luyện tập cú pháp với grep

Khám phá các hàm biểu thức chính quy.

Tách token (Tokenization)

Các hàm của tidytext

Tokenization: câu

Những điều cơ bản về làm sạch văn bản

Tiền xử lý văn bản: loại bỏ stop words

Tiền xử lý văn bản: Stemming

Bắt Đầu Chương

2

Biểu diễn văn bản

Trong chương này, bạn sẽ học các cách phân tích văn bản phổ biến và được nghiên cứu nhiều nhất. Bạn sẽ xem cách tạo một text corpus, mở rộng biểu diễn bag-of-words thành ma trận TFIDF, và dùng thước đo cosine-similarity để xác định mức độ tương đồng giữa hai đoạn văn bản. Bạn sẽ củng cố nền tảng để thực hành NLP trước khi đi sâu vào các ứng dụng của NLP ở chương 3 và 4.

Tìm hiểu về corpus trong R

Khám phá một corpus trong R

Tạo một tibble từ một corpus

Tạo một corpus

Biểu diễn bag-of-words

Luyện tập BoW

Ví dụ BoW

Ma trận thưa

Tính thủ công

Luyện tập TFIDF

Độ tương đồng cosine

Một ví dụ thất bại trong phân tích văn bản

Ví dụ về độ tương đồng cosine

Bắt Đầu Chương

3

Ứng dụng: Phân loại và Topic Modeling

Chương 3 tập trung vào hai cách tiếp cận phân tích văn bản phổ biến: mô hình phân loại và topic modeling. Nếu bạn làm việc với các dự án phân tích văn bản, bạn gần như chắc chắn sẽ dùng một hoặc cả hai phương pháp này. Chương này hướng dẫn bạn cách thực hiện cả hai kỹ thuật và cung cấp góc nhìn thực tiễn về cách tiếp cận chúng.

Chuẩn bị văn bản cho mô hình hóa

Chuẩn bị dữ liệu

Loại bỏ các thuật ngữ thưa

Mô hình phân loại

Ví dụ mô hình phân loại

Ma trận nhầm lẫn

So sánh TFIDF tibble và dtm

Giới thiệu về mô hình chủ đề

Luyện tập LDA

Gán chủ đề cho tài liệu

LDA trong thực tiễn

Kiểm tra perplexity

Rà soát kết quả LDA

Bắt Đầu Chương

4

Kỹ thuật nâng cao

Ở chương 4, chúng ta tìm hiểu hai trụ cột của xử lý ngôn ngữ tự nhiên: sentiment analysis và word embeddings. Đây là hai kỹ thuật phân tích mà bất kỳ ai học nền tảng phân tích văn bản cũng nên biết. Bên cạnh đó, bạn sẽ lướt qua BERT, gán nhãn từ loại (part-of-speech tagging), và named entity recognition. Gần 15 kỹ thuật phân tích khác nhau đã được đề cập trong khóa học, vì vậy chương 4 sẽ kết thúc bằng phần tổng kết lại tất cả các kỹ thuật hữu ích mà bạn sẽ học trong khóa này.

Phân tích cảm xúc

bộ từ vựng (lexicon) của tidytext

Điểm cảm xúc

Cảm xúc và sắc thái cảm xúc

Word embeddings

Luyện tập với h2o

Phân tích NLP bổ sung

Ôn tập phương pháp #1

Ôn tập phương pháp #2

Kết luận

Bắt Đầu Chương

Nhập môn Xử lý Ngôn ngữ Tự nhiên với R

Hoàn
Thành

Nhận Giấy Chứng Nhận Hoàn Thành

Thêm chứng chỉ này vào hồ sơ LinkedIn, CV hoặc sơ yếu lý lịch của ban
Chia sẻ trên mạng xã hội và trong đánh giá hiệu suất của banĐăng ký ngay

Tham gia cùng hơn 19 triệu học viên và bắt đầu Nhập môn Xử lý Ngôn ngữ Tự nhiên với R ngay hôm nay!

Phát triển kỹ năng dữ liệu với DataCamp cho thiết bị di động

Tiến bộ mọi lúc mọi nơi với các khóa học cho thiết bị di động và thử thách lập trình 5 phút hằng ngày.