Ga naar hoofdinhoud

Cursus

Feature Engineering voor NLP in Python

GevorderdVaardigheidsniveau

Bijgewerkt 11-2024

Leer manieren om nuttige info uit tekst te halen en deze om te zetten naar een formaat dat geschikt is voor machine learning.

Start Cursus Kosteloos

PythonMachine Learning

4 u

15 videos

52 Opdrachten

4,200 XP

29,264

Bewijs van Prestatie

Geliefd bij leerlingen van duizenden bedrijven

Een team trainen?

Probeer voor bedrijven

Cursusbeschrijving

In deze cursus leer je technieken om nuttige informatie uit tekst te halen en die te verwerken naar een formaat dat geschikt is voor ML-modellen. Je leert onder andere over POS-tagging, named entity recognition, leesbaarheidscores, n-gram- en tf-idf-modellen, en hoe je deze implementeert met scikit-learn en spaCy. Ook leer je berekenen hoe sterk twee documenten op elkaar lijken. Onderweg voorspel je het sentiment van filmrecensies en bouw je aanbevelers voor films en TED Talks. Na afloop kun je uit elke tekst cruciale features halen en enkele van de meest uitdagende problemen in data science oplossen!

Vereisten

Introduction to Natural Language Processing in Python Supervised Learning with scikit-learn

1

Basisfeatures en leesbaarheidscores

Leer basisfeatures berekenen, zoals het aantal woorden, het aantal tekens, de gemiddelde woordlengte en het aantal speciale tekens (zoals Twitter-hashtags en -vermeldingen). Je leert ook leesbaarheidscores berekenen en bepalen welk opleidingsniveau nodig is om een tekst te begrijpen.

Introductie tot feature engineering voor NLP

Gegevensformaat voor ML-algoritmen

One-hot encoding

Basiskenmerken extraheren

Aantal tekens in Russische tweets

Woordenaantal van TED-talks

Hashtags en vermeldingen in Russische tweets

Leesbaarheidstests

Leesbaarheid van 'The Myth of Sisyphus'

Leesbaarheid van verschillende publicaties

Hoofdstuk beginnen

2

Tekstvoorbewerking, POS-tagging en NER

In dit hoofdstuk leer je over tokenization en lemmatization. Daarna leer je hoe je tekst opschoont, part-of-speech-tagging uitvoert en named entity recognition toepast met de spaCy-bibliotheek. Als je deze concepten beheerst, ga je de Gettysburg Address machinevriendelijk maken, het gebruik van zelfstandig naamwoorden in nepnieuws analyseren en personen identificeren die in een TechCrunch-artikel worden genoemd.

Tokenization en lemmatisering

Lemma's herkennen

Tokenizen van de Gettysburg Address

Lemmatizeren van de Gettysburg Address

Tekstschoonmaak

Een blogpost opschonen

TED-talks opschonen in een dataframe

Woordsoorttagging

POS-tagging in Lord of the Flies

Zelfstandige naamwoorden tellen in een tekst

Zelfstandig naamwoordgebruik in nepnieuws

Named entity recognition

Naamgedekte entiteiten in een zin

Mensen identificeren die in een nieuwsartikel worden genoemd

Hoofdstuk beginnen

3

N-grammodellen

Leer over n-grammodellering en pas dit toe om sentimentanalyse uit te voeren op filmrecensies.

Een bag-of-wordsmodel bouwen

Woordvectoren met een gegeven woordenschat

BoW-model voor filmtaglines

Dimensies en preprocessing analyseren

Feature-indexen koppelen aan featurenamen

Een BoW-Naive Bayes-classificator bouwen

BoW-vectoren voor filmrecensies

Het sentiment van een filmrecensie voorspellen

N-grammodellen bouwen

n-grammodellen voor filmtaglines

Hogere-orde n-grams voor sentimentanalyse

Prestaties van n-grammodellen vergelijken

Hoofdstuk beginnen

4

TF-IDF en gelijkenisscores

Leer hoe je tf-idf-gewichten en de cosinusgelijkenisscore tussen twee vectoren berekent. Je gebruikt deze concepten om een film- en een TED Talk-aanbeveler te bouwen. Tot slot leer je ook over word embeddings en bereken je, met woordvectorrepresentaties, gelijkenissen tussen verschillende Pink Floyd-nummers.

TF-IDF-documentvectoren bouwen

tf-idf-gewicht van veelvoorkomende woorden

tf-idf-vectoren voor TED-talks

Cosinus-overeenkomst

Bereik van cosinusscores

Inwendig product berekenen

Cosinus-similariteitsmatrix van een corpus

Een aanbeveler bouwen op basis van verhaallijnen

linear_kernel en cosine_similarity vergelijken

Aanbevelingsengine voor plots

De aanbevelingsfunctie

TED Talk-aanbeveler

Verder dan n-grams: word embeddings

Woordvectoren genereren

Overeenkomst berekenen tussen Pink Floyd-nummers

Gefeliciteerd!

Hoofdstuk beginnen

Feature Engineering voor NLP in Python

Cursus
voltooid

Verdien een prestatieverklaring

Voeg deze referentie toe aan je LinkedIn-profiel, cv of curriculum vitae
Deel het op sociale media en in je functioneringsgesprekSchrijf je nu in

Sluit je aan bij meer dan 19 miljoen leerlingen en start vandaag nog met Feature Engineering voor NLP in Python!

Ontwikkel je datavaardigheden met DataCamp voor Mobiel

Maak vooruitgang onderweg met onze mobiele cursussen en dagelijkse 5-minuten programmeeruitdagingen.