Vai al contenuto principale

Corso

Feature Engineering per NLP in Python

AvanzatoLivello di competenza

Aggiornato 11/2024

Impara i trucchi per prendere le informazioni utili da un testo e trasformarle in un formato che va bene per l'apprendimento automatico.

Inizia il corso gratis

PythonMachine Learning

4 h

15 video

52 Esercizi

4,200 XP

29,264

Attestato di conseguimento

Preferito dagli studenti di migliaia di aziende

Formare un team?

Prova per il Business

Descrizione del corso

In questo corso imparerai tecniche per estrarre informazioni utili dal testo e trasformarle in un formato adatto all'applicazione di modelli di ML. In particolare, scoprirai il POS tagging, il riconoscimento di entità nominate (NER), gli indici di leggibilità, i modelli n-gram e tf-idf, e come implementarli con scikit-learn e spaCy. Imparerai anche a calcolare quanto sono simili tra loro due documenti. Lavorando su questi concetti, prevederai il sentiment delle recensioni di film e costruirai sistemi di raccomandazione per film e TED Talk. Alla fine del corso, sarai in grado di progettare feature fondamentali a partire da qualsiasi testo e affrontare alcuni dei problemi più impegnativi della data science!

Prerequisiti

Introduction to Natural Language Processing in Python Supervised Learning with scikit-learn

1

Feature di base e indici di leggibilità

Impara a calcolare feature di base come numero di parole, numero di caratteri, lunghezza media delle parole e numero di caratteri speciali (come hashtag e menzioni su Twitter). Imparerai anche a calcolare gli indici di leggibilità e a determinare il livello di istruzione necessario per comprendere un testo.

Introduzione al feature engineering per l'NLP

Formato dei dati per gli algoritmi di ML

One-hot encoding

Estrazione di caratteristiche di base

Conteggio dei caratteri dei tweet russi

Conteggio parole dei TED talk

Hashtag e menzioni nei tweet in russo

Test di leggibilità

Leggibilità di 'Il mito di Sisifo'

Leggibilità di varie pubblicazioni

Inizia il capitolo

2

Preprocessing del testo, POS tagging e NER

In questo capitolo imparerai tokenizzazione e lemmatizzazione. Poi vedrai come effettuare pulizia del testo, part-of-speech tagging e riconoscimento di entità nominate usando la libreria spaCy. Una volta padroneggiati questi concetti, renderai il discorso di Gettysburg adatto alle macchine, analizzerai l’uso dei sostantivi nelle fake news e identificherai le persone citate in un articolo di TechCrunch.

Tokenizzazione e lemmatizzazione

Identificare i lemmi

Tokenizzare il discorso di Gettysburg

Lemmatizzazione del discorso di Gettysburg

Pulizia del testo

Pulire un post del blog

Pulire i TED Talks in un dataframe

Part-of-speech tagging

POS tagging in Lord of the Flies

Contare i nomi in un testo

Uso dei nomi nelle fake news

Riconoscimento di entità denominate

Entità nominate in una frase

Identificare le persone menzionate in un articolo di news

Inizia il capitolo

3

Modelli N-Gram

Scopri il modello n-gram e usalo per eseguire l’analisi del sentiment sulle recensioni di film.

Creare un modello bag-of-words

Vettori di parole con un vocabolario dato

Modello BoW per gli slogan dei film

Analizzare dimensionalità e preprocessing

Mappare gli indici delle feature con i nomi delle feature

Creare un classificatore Naive Bayes con BoW

Vettori BoW per le recensioni di film

Prevedere il sentiment di una recensione cinematografica

Creare modelli n-gram

Modelli n-gram per gli slogan dei film

N-grammi di ordine superiore per l'analisi del sentiment

Confrontare le prestazioni dei modelli n-gram

Inizia il capitolo

4

TF-IDF e misure di similarità

Impara a calcolare i pesi tf-idf e il punteggio di similarità coseno tra due vettori. Userai questi concetti per costruire un sistema di raccomandazione per film e TED Talk. Infine, conoscerai i word embedding e, usando rappresentazioni vettoriali delle parole, calcolerai similarità tra varie canzoni dei Pink Floyd.

Creare vettori di documenti tf-idf

Peso tf-idf delle parole che ricorrono spesso

Vettori tf-idf per i TED Talk

Similarità coseno

Intervallo dei punteggi del coseno

Calcolare il prodotto scalare

Matrice di similarità coseno di un corpus

Creare un sistema di raccomandazione basato sulla trama

Confrontare linear_kernel e cosine_similarity

Motore di raccomandazione basato sulla trama

La funzione di raccomandazione

Consigliere di TED Talk

Oltre gli n-grammi: word embeddings

Generare vettori di parole

Calcolare la similarità tra brani dei Pink Floyd

Complimenti!

Inizia il capitolo

Feature Engineering per NLP in Python

Corso
completato

Ottieni Attestato di conseguimento

Aggiungi questa certificazione al tuo profilo LinkedIn, al curriculum o al CV
Condividila sui social e nella valutazione delle tue performanceIscriviti ora

Unisciti a oltre 19 milioni di studenti e inizia Feature Engineering per NLP in Python oggi!

Aumenta le tue competenze sui dati con l'app di DataCamp

Avanza ovunque ti trovi con i nostri corsi per dispositivi mobili e le nostre sfide di programmazione quotidiane da 5 minuti.