Lewati ke konten utama

Kursus

Rekayasa Fitur untuk NLP di Python

LanjutanTingkat Keterampilan

Diperbarui 11/2024

Pelajari teknik untuk mengekstrak informasi berguna dari teks dan memprosesnya ke dalam format yang sesuai untuk pembelajaran mesin.

Mulai Kursus Gratis

PythonMachine Learning

4 jam

15 videos

52 Latihan

4,200 XP

29,264

Pernyataan Pencapaian

Dipercaya oleh para pelajar di ribuan perusahaan

Melatih Tim?

Coba untuk Bisnis

Deskripsi Kursus

Dalam kursus ini, Anda akan mempelajari teknik-teknik untuk mengekstrak informasi bermanfaat dari teks dan memprosesnya ke dalam format yang sesuai untuk penerapan model ML. Secara khusus, Anda akan mempelajari POS tagging, named entity recognition, skor keterbacaan, model n-gram dan tf-idf, serta cara mengimplementasikannya menggunakan scikit-learn dan spaCy. Anda juga akan belajar menghitung seberapa mirip dua dokumen satu sama lain. Dalam prosesnya, Anda akan memprediksi sentimen ulasan film serta membangun sistem rekomendasi film dan Ted Talk. Setelah mengikuti kursus ini, Anda akan mampu merekayasa fitur-fitur penting dari teks apa pun dan menyelesaikan beberapa masalah paling menantang dalam data science!

Persyaratan

Introduction to Natural Language Processing in Python Supervised Learning with scikit-learn

1

Fitur dasar dan skor keterbacaan

Pelajari cara menghitung fitur dasar seperti jumlah kata, jumlah karakter, panjang kata rata-rata, dan jumlah karakter khusus (seperti tagar dan mention di Twitter). Anda juga akan belajar menghitung skor keterbacaan dan menentukan tingkat pendidikan yang dibutuhkan untuk memahami sebuah teks.

Pengantar rekayasa fitur NLP

Format data untuk algoritme ML

Pengodean one-hot

Ekstraksi fitur dasar

Jumlah karakter pada tweet berbahasa Rusia

Jumlah kata pada TED talk

Tagar dan sebutan dalam cuitan berbahasa Rusia

Uji keterbacaan

Keterbacaan 'The Myth of Sisyphus'

Keterbacaan berbagai publikasi

2

Praproses teks, POS tagging, dan NER

Pada bab ini, Anda akan mempelajari tokenization dan lemmatization. Kemudian, Anda akan belajar melakukan pembersihan teks, part-of-speech tagging, dan named entity recognition menggunakan pustaka spaCy. Setelah menguasai konsep-konsep ini, Anda akan membuat pidato Gettysburg menjadi ramah mesin, menganalisis penggunaan nomina dalam berita palsu, dan mengidentifikasi orang-orang yang disebutkan dalam sebuah artikel TechCrunch.

Tokenisasi dan Lematisasi

Mengidentifikasi lemma

Tokenisasi Pidato Gettysburg

Lematisasi pidato Gettysburg

Pembersihan teks

Membersihkan sebuah postingan blog

Membersihkan TED Talks dalam sebuah dataframe

Part-of-speech tagging

POS tagging pada Lord of the Flies

Menghitung nomina dalam sebuah teks

Penggunaan nomina dalam berita palsu

Pengenalan entitas bernama

Entitas bernama dalam sebuah kalimat

Mengidentifikasi orang yang disebutkan dalam sebuah artikel berita

3

Model N-Gram

Pelajari pemodelan n-gram dan gunakan untuk melakukan analisis sentimen pada ulasan film.

Membangun model bag-of-words

Vektor kata dengan kosakata yang diberikan

Model BoW untuk tagline film

Menganalisis dimensi dan prapemrosesan

Memetakan indeks fitur dengan nama fitur

Membangun klasifier Naive Bayes BoW

Vektor BoW untuk ulasan film

Memprediksi sentimen ulasan film

Membangun model n-gram

Model n-gram untuk slogan film

N-gram tingkat lebih tinggi untuk analisis sentimen

Membandingkan kinerja model n-gram

4

TF-IDF dan skor kemiripan

Pelajari cara menghitung bobot tf-idf dan skor cosine similarity antara dua vektor. Anda akan menggunakan konsep ini untuk membangun sistem rekomendasi film dan TED Talk. Terakhir, Anda juga akan mempelajari word embeddings dan, dengan menggunakan representasi vektor kata, Anda akan menghitung kemiripan antara berbagai lagu Pink Floyd.

Membangun vektor dokumen tf-idf

Bobot tf-idf untuk kata yang sering muncul

Vektor tf-idf untuk TED Talk

Kemiripan kosinus

Rentang skor kosinus

Menghitung dot product

Matriks kemiripan kosinus dari sebuah korpus

Membangun sistem rekomendasi berbasis alur cerita

Membandingkan linear_kernel dan cosine_similarity

Mesin rekomendasi plot

Fungsi rekomendasi

Rekomendasi TED Talk

Melampaui n-gram: word embeddings

Menghasilkan vektor kata

Menghitung kemiripan lagu-lagu Pink Floyd

Rekayasa Fitur untuk NLP di Python

Kursus
Selesai

Memperoleh Surat Keterangan Prestasi

Tambahkan kredensial ini ke profil LinkedIn, resume, atau CV Anda
Bagikan di media sosial dan dalam penilaian kinerja AndaDaftar sekarang

Bergabung dengan 19 juta pelajar dan mulai Rekayasa Fitur untuk NLP di Python Hari Ini!

Kembangkan keterampilan data Anda dengan DataCamp untuk Mobile

Buat kemajuan di mana saja dengan kursus mobile kami dan tantangan coding harian 5 menit.