Chuyển đến nội dung chính

Trang chủ Python

Khóa học

Khai thác đặc trưng cho NLP bằng Python

Nâng caoTrình độ kỹ năng

Đã cập nhật tháng 11, 2024

Bắt Đầu Khóa Học Miễn Phí

PythonMachine Learning

4 gio

15 video

52 Bài tập

4,200 XP

29,264

Giấy chứng nhận Thành tích

Được người học tại hàng ngàn công ty yêu thích

Đào tạo một đội ngũ?

Dùng thử cho Doanh nghiệp

Mô tả khóa học

Trong khóa học này, bạn sẽ học các kỹ thuật giúp trích xuất thông tin hữu ích từ văn bản và xử lý chúng thành định dạng phù hợp để áp dụng các mô hình ML. Cụ thể hơn, bạn sẽ tìm hiểu về gán nhãn từ loại (POS tagging), nhận diện thực thể có tên (named entity recognition), điểm dễ đọc (readability scores), các mô hình n-gram và tf-idf, và cách triển khai chúng bằng scikit-learn và spaCy. Bạn cũng sẽ học cách tính mức độ tương đồng giữa hai tài liệu. Trong quá trình học, bạn sẽ dự đoán cảm xúc của các bài đánh giá phim và xây dựng hệ gợi ý phim và TED Talk. Sau khóa học, bạn sẽ có thể tạo ra các đặc trưng quan trọng từ bất kỳ văn bản nào và giải quyết một số bài toán thách thức nhất trong khoa học dữ liệu!

Điều kiện tiên quyết

Introduction to Natural Language Processing in Python Supervised Learning with scikit-learn

1

Đặc trưng cơ bản và điểm dễ đọc

Học cách tính các đặc trưng cơ bản như số lượng từ, số ký tự, độ dài trung bình của từ và số ký tự đặc biệt (như hashtag và mention trên Twitter). Bạn cũng sẽ học cách tính điểm dễ đọc và xác định mức độ học vấn cần thiết để hiểu một đoạn văn bản.

Giới thiệu về kỹ thuật xây dựng đặc trưng cho NLP

Định dạng dữ liệu cho thuật toán ML

Mã hóa one-hot

Trích xuất đặc trưng cơ bản

Đếm ký tự trong các tweet tiếng Nga

Đếm số từ trong các bài TED Talk

Hashtags và mentions trong các tweet tiếng Nga

Kiểm tra khả năng đọc hiểu

Mức độ dễ đọc của 'Huyền thoại Sisyphus'

Độ dễ đọc của các ấn phẩm khác nhau

Bắt Đầu Chương

2

Tiền xử lý văn bản, gán nhãn từ loại và NER

Trong chương này, bạn sẽ học về tokenization và lemmatization. Tiếp đó, bạn sẽ học cách làm sạch văn bản, gán nhãn từ loại (part-of-speech tagging) và nhận diện thực thể có tên (named entity recognition) bằng thư viện spaCy. Sau khi nắm vững các khái niệm này, bạn sẽ chuyển bài diễn văn Gettysburg sang dạng thân thiện với máy, phân tích cách dùng danh từ trong tin giả, và xác định những người được nhắc đến trong một bài viết của TechCrunch.

Tách từ (Tokenization) và chuẩn hóa từ gốc (Lemmatization)

Nhận diện lemma

Token hóa bài diễn văn Gettysburg

Lemmatization bài diễn văn Gettysburg

Làm sạch văn bản

Làm sạch một bài đăng blog

Làm sạch các bài TED Talk trong một dataframe

Gán nhãn từ loại (Part-of-speech tagging)

Gán nhãn từ loại (POS) trong Lord of the Flies

Đếm danh từ trong một đoạn văn bản

Cách dùng danh từ trong tin giả

Nhận dạng thực thể được đặt tên

Thực thể được đặt tên trong một câu

Nhận diện người được nhắc đến trong một bài báo

Bắt Đầu Chương

3

Mô hình N-Gram

Tìm hiểu về mô hình n-gram và sử dụng nó để phân tích cảm xúc các bài đánh giá phim.

Xây dựng mô hình bag-of-words

Vector từ với một bộ từ vựng cho trước

Mô hình BoW cho tagline phim

Phân tích số chiều và tiền xử lý

Ánh xạ chỉ số đặc trưng với tên đặc trưng

Xây dựng bộ phân loại Naive Bayes với BoW

Vector BoW cho bài đánh giá phim

Dự đoán cảm xúc của một bài đánh giá phim

Xây dựng mô hình n-gram

Mô hình n-gram cho khẩu hiệu phim

N-gram bậc cao cho phân tích cảm xúc

So sánh hiệu năng của các mô hình n-gram

Bắt Đầu Chương

4

TF-IDF và điểm tương đồng

Học cách tính trọng số tf-idf và điểm tương đồng cosine giữa hai vector. Bạn sẽ dùng các khái niệm này để xây dựng hệ gợi ý phim và TED Talk. Cuối cùng, bạn cũng sẽ học về word embeddings và, sử dụng biểu diễn vector từ, bạn sẽ tính mức độ tương đồng giữa nhiều bài hát của Pink Floyd.

Xây dựng vector tài liệu tf-idf

Trọng số tf-idf của các từ xuất hiện phổ biến

Vector tf-idf cho các bài TED Talk

Độ tương tự cosine

Miền giá trị của điểm cosine

Tính tích vô hướng (dot product)

Ma trận độ tương đồng cosine của một corpus

Xây dựng bộ gợi ý dựa trên cốt truyện

So sánh linear_kernel và cosine_similarity

Công cụ gợi ý dựa trên cốt truyện

Hàm gợi ý

Hệ gợi ý TED Talk

Vượt ra ngoài n-gram: word embeddings

Tạo vector từ (word vector)

Tính độ tương đồng giữa các bài hát của Pink Floyd

Chúc mừng bạn!

Bắt Đầu Chương

Khai thác đặc trưng cho NLP bằng Python

Hoàn
Thành

Nhận Giấy Chứng Nhận Hoàn Thành

Thêm chứng chỉ này vào hồ sơ LinkedIn, CV hoặc sơ yếu lý lịch của ban
Chia sẻ trên mạng xã hội và trong đánh giá hiệu suất của banĐăng ký ngay

Tham gia cùng hơn 19 triệu học viên và bắt đầu Khai thác đặc trưng cho NLP bằng Python ngay hôm nay!

Phát triển kỹ năng dữ liệu với DataCamp cho thiết bị di động

Tiến bộ mọi lúc mọi nơi với các khóa học cho thiết bị di động và thử thách lập trình 5 phút hằng ngày.