Accéder au contenu principal

Cours

Feature Engineering pour le NLP en Python

AvancéNiveau de compétence

Actualisé 11/2024

Apprenez les techniques permettant d'extraire des informations utiles à partir de textes et de les traiter dans un format adapté à l'apprentissage automatique.

Commencer le cours gratuitement

PythonMachine Learning

4 h

15 vidéos

52 Exercices

4,200 XP

29,246

Certificat de formation

Apprécié par des utilisateurs provenant de milliers d'entreprises

Former une équipe ?

Essayez pour les entreprises

Description du cours

Dans ce cours, vous apprendrez des techniques pour extraire des informations utiles d’un texte et les transformer dans un format adapté à l’application de modèles de ML. Plus précisément, vous verrez le POS tagging, la reconnaissance d’entités nommées, les scores de lisibilité, les modèles n-gram et tf-idf, ainsi que leur implémentation avec scikit-learn et spaCy. Vous apprendrez aussi à mesurer la similarité entre deux documents. Au fil des exercices, vous prédirez le sentiment de critiques de films et construirez des systèmes de recommandation pour des films et des TED Talks. À l’issue du cours, vous saurez concevoir des features essentielles à partir de n’importe quel texte et résoudre certaines des tâches les plus exigeantes de la data science !

Prérequis

Introduction to Natural Language Processing in Python Supervised Learning with scikit-learn

1

Features de base et scores de lisibilité

Apprenez à calculer des features de base comme le nombre de mots, le nombre de caractères, la longueur moyenne des mots et le nombre de caractères spéciaux (comme les hashtags et mentions Twitter). Vous apprendrez également à calculer des scores de lisibilité et à déterminer le niveau d’études nécessaire pour comprendre un texte.

Introduction à l’ingénierie des fonctionnalités pour le NLP

Format des données pour les algorithmes de ML

Encodage one-hot

Extraction de caractéristiques de base

Nombre de caractères des tweets russes

Nombre de mots des conférences TED

Hashtags et mentions dans des tweets en russe

Tests de lisibilité

Lisibilité de « Le Mythe de Sisyphe »

Lisibilité de différentes publications

Commencer le chapitre

2

Prétraitement du texte, POS tagging et NER

Dans ce chapitre, vous découvrirez la tokenisation et la lemmatisation. Vous verrez ensuite comment effectuer le nettoyage de texte, l’étiquetage grammatical (part-of-speech) et la reconnaissance d’entités nommées avec la bibliothèque spaCy. Une fois ces notions maîtrisées, vous rendrez le discours de Gettysburg exploitable par machine, analyserez l’usage des noms dans de fausses informations et identifierez les personnes mentionnées dans un article de TechCrunch.

Tokenisation et lemmatisation

Identifier les lemmes

Tokeniser le discours de Gettysburg

Lemmatisation du discours de Gettysburg

Nettoyage de texte

Nettoyer un article de blog

Nettoyer des TED Talks dans un dataframe

Étiquetage morpho-syntaxique

Étiquetage morpho-syntaxique dans Lord of the Flies

Compter les noms dans un texte

Utilisation des noms dans les fake news

Reconnaissance d’entités nommées

Entités nommées dans une phrase

Identifier les personnes mentionnées dans un article de presse

Commencer le chapitre

3

Modèles N-gram

Découvrez la modélisation n-gram et utilisez-la pour effectuer une analyse de sentiment sur des critiques de films.

Construire un modèle sac de mots

Vecteurs de mots avec un vocabulaire donné

Modèle BoW pour des slogans de films

Analyser la dimensionnalité et le prétraitement

Faire correspondre les indices de features aux noms de features

Construire un classifieur Naive Bayes avec BoW

Vecteurs BoW pour des critiques de films

Prédire le sentiment d’une critique de film

Construire des modèles n-grammes

Modèles n-grammes pour des slogans de films

N-grammes d’ordre supérieur pour l’analyse de sentiment

Comparer les performances des modèles à n-grammes

Commencer le chapitre

4

TF-IDF et scores de similarité

Apprenez à calculer les pondérations tf-idf et le score de similarité cosinus entre deux vecteurs. Vous utiliserez ces notions pour construire un système de recommandation de films et de TED Talks. Enfin, vous découvrirez aussi les word embeddings et, à partir de représentations vectorielles de mots, vous calculerez des similarités entre différentes chansons de Pink Floyd.

Construire des vecteurs de documents tf-idf

Poids tf-idf des mots fréquents

Vecteurs tf-idf pour les conférences TED

Similarité cosinus

Plage des scores cosinus

Calculer un produit scalaire

Matrice de similarité cosinus d’un corpus

Créer un système de recommandation basé sur l’intrigue

Comparer linear_kernel et cosine_similarity

Moteur de recommandation basé sur le synopsis

La fonction de recommandation

Système de recommandation de conférences TED

Au-delà des n-grammes : les plongements lexicaux

Générer des vecteurs de mots

Calculer la similarité des chansons de Pink Floyd

Félicitations !

Commencer le chapitre

Feature Engineering pour le NLP en Python

Cours
terminé

Obtenez un certificat de réussite

Ajoutez cette certification à votre profil LinkedIn, à votre CV ou à votre portfolio
Partagez-la sur les réseaux sociaux et dans votre évaluation de performanceS'inscrire maintenant

Rejoignez plus de 19 millions d'utilisateurs et commencez Feature Engineering pour le NLP en Python dès aujourd'hui !

Apprenez où que vous soyez avec l'application DataCamp

Progressez où que vous soyez grâce à nos cours conçus pour mobile et à nos défis quotidiens de 5 minutes.