Ir al contenido principal

Curso

Ingeniería de características para NLP en Python

AvanzadoNivel de habilidad

Actualizado 11/2024

Aprende técnicas para extraer información útil del texto y procesarla en un formato adecuado para machine learning.

Comienza el curso gratis

PythonMachine Learning

4 h

15 vídeos

52 Ejercicios

4,200 XP

29,246

Certificado de logros

Preferido por estudiantes en miles de empresas

¿Formando un equipo?

Prueba para empresas

Descripción del curso

En este curso, aprenderás técnicas para extraer información útil de texto y procesarla en un formato apto para aplicar modelos de ML. En concreto, verás el etiquetado POS, el reconocimiento de entidades con nombre, las métricas de legibilidad, los modelos de n-gramas y tf-idf, y cómo implementarlos con scikit-learn y spaCy. También aprenderás a calcular cuán similares son dos documentos entre sí. Durante el curso, predecirás el sentimiento de reseñas de películas y crearás sistemas de recomendación de películas y charlas TED. Al finalizar, serás capaz de diseñar características clave a partir de cualquier texto y afrontar algunos de los problemas más desafiantes de la ciencia de datos.

Requisitos previos

Introduction to Natural Language Processing in Python Supervised Learning with scikit-learn

1

Características básicas y métricas de legibilidad

Aprende a calcular características básicas como el número de palabras, el número de caracteres, la longitud media de las palabras y el número de caracteres especiales (como hashtags y menciones de Twitter). También aprenderás a calcular métricas de legibilidad y a determinar el nivel educativo necesario para comprender un texto.

Introducción a la ingeniería de características para NLP

Formato de datos para algoritmos de ML

Codificación one-hot

Extracción básica de características

Recuento de caracteres de tuits rusos

Conteo de palabras de charlas TED

Hashtags y menciones en tuits en ruso

Pruebas de legibilidad

Legibilidad de 'El mito de Sísifo'

Legibilidad de varias publicaciones

Iniciar capítulo

2

Preprocesamiento de texto, etiquetado POS y NER

En este capítulo, aprenderás sobre tokenización y lematización. Después verás cómo realizar limpieza de texto, etiquetado de categorías gramaticales (part-of-speech) y reconocimiento de entidades con nombre usando la biblioteca spaCy. Una vez domines estos conceptos, convertirás el discurso de Gettysburg en apto para máquinas, analizarás el uso de sustantivos en noticias falsas e identificarás las personas mencionadas en un artículo de TechCrunch.

Tokenización y lematización

Identificar lemas

Tokenizar el discurso de Gettysburg

Lematizando el discurso de Gettysburg

Limpieza de texto

Limpiar una entrada de blog

Limpiar charlas TED en un dataframe

Etiquetado de categorías gramaticales

Etiquetado POS en Lord of the Flies

Contar sustantivos en un texto

Uso de sustantivos en noticias falsas

Reconocimiento de entidades nombradas

Entidades con nombre en una frase

Identificar a las personas mencionadas en un artículo de noticias

Iniciar capítulo

3

Modelos de n-gramas

Aprende modelado con n-gramas y utilízalo para realizar análisis de sentimiento en reseñas de películas.

Crear un modelo de bolsa de palabras

Vectores de palabras con un vocabulario dado

Modelo BoW para lemas de películas

Analizar la dimensionalidad y el preprocesamiento

Vincular los índices de características con los nombres de características

Crear un clasificador Naive Bayes con BoW

Vectores BoW para reseñas de películas

Predecir el sentimiento de una reseña de cine

Construir modelos de n-gramas

Modelos n-gram para lemas de películas

N-gramas de orden superior para análisis de sentimiento

Comparing performance of n-gram models

Iniciar capítulo

4

TF-IDF y medidas de similitud

Aprende a calcular pesos tf-idf y la similitud del coseno entre dos vectores. Usarás estos conceptos para construir un recomendador de películas y de charlas TED. Por último, también verás los word embeddings y, usando representaciones vectoriales de palabras, calcularás similitudes entre varias canciones de Pink Floyd.

Crear vectores de documentos con tf-idf

Peso tf-idf de palabras muy frecuentes

Vectores tf-idf para charlas TED

Similitud coseno

Rango de las puntuaciones de coseno

Calcular el producto punto

Matriz de similitud del coseno de un corpus

Crear un recomendador basado en la sinopsis

Comparar linear_kernel y cosine_similarity

Motor de recomendación por argumento

La función de recomendación

Recomendador de charlas TED

Más allá de los n-grams: word embeddings

Generar vectores de palabras

Calcular la similitud de canciones de Pink Floyd

¡Enhorabuena!

Iniciar capítulo

Ingeniería de características para NLP en Python

Curso
completo

Obtener certificado de logros

Añade esta certificación a tu perfil de LinkedIn o a tu currículum.
Compártelo en redes sociales y en tu evaluación de desempeño.Inscríbete ahora

¡Únete a 19 millones de estudiantes y empieza Ingeniería de características para NLP en Python hoy mismo!

Desarrolla tus habilidades de datos con la aplicación móvil de DataCamp

Progresa desde cualquier dispositivo móvil con nuestros cursos y desafíos de programación diarios de 5 minutos.