Ir al contenido principal

Curso

Ingeniería de características para Machine Learning en Python

IntermedioNivel de habilidad

Actualizado 2/2023

Crea nuevas funciones para mejorar el rendimiento de tus modelos de machine learning.

Comienza el curso gratis

PythonMachine Learning

4 h

16 vídeos

53 Ejercicios

4,350 XP

38,881

Certificado de logros

Preferido por estudiantes en miles de empresas

¿Formando un equipo?

Prueba para empresas

Descripción del curso

Cada día lees sobre avances increíbles y cómo las aplicaciones más recientes de Machine Learning están cambiando el mundo. A menudo se pasa por alto que, antes de usar esos modelos sofisticados, hay que hacer mucho trabajo de limpieza de datos e ingeniería de características. En este curso aprenderás a hacerlo. Trabajarás con la encuesta de desarrolladores de Stack Overflow y con discursos históricos de investidura presidencial de EE. UU. para entender cómo preprocesar y diseñar características a partir de datos categóricos, continuos y no estructurados. Este curso te dará experiencia práctica para preparar cualquier dato para tus propios modelos de Machine Learning.

Requisitos previos

Supervised Learning with scikit-learn

1

Creación de características

En este capítulo explorarás qué es la ingeniería de características y cómo empezar a aplicarla a datos del mundo real. Cargarás, explorarás y visualizarás un conjunto de respuestas de una encuesta, y así conocerás sus tipos de datos subyacentes y por qué influyen en cómo debes diseñar tus características. Usando el paquete pandas, crearás nuevas características a partir de columnas tanto categóricas como continuas.

¿Por qué generar características?

Conoce tus datos

Seleccionar tipos de datos específicos

Cómo trabajar con variables categóricas

One-hot encoding y variables ficticias

Cómo tratar categorías poco frecuentes

Variables numéricas

Binarizar columnas

Agrupar valores en bins

Iniciar capítulo

2

Tratamiento de datos desordenados

Este capítulo te presenta la realidad de los datos desordenados e incompletos. Aprenderás a detectar dónde tu data tiene valores ausentes y explorarás varias formas de tratarlos. También usarás técnicas de manipulación de cadenas para eliminar caracteres no deseados en tu conjunto de datos.

¿Por qué existen los valores ausentes?

¿Qué tan dispersos están mis datos?

Encontrar los valores ausentes

Cómo manejar los valores ausentes (I)

Eliminación por lista (listwise deletion)

Reemplazar valores ausentes por constantes

Cómo tratar los valores ausentes (II)

Rellenar valores continuos ausentes

Imputación de valores en modelos predictivos

Cómo abordar otros problemas de datos

Gestionar caracteres sueltos (I)

Tratamiento de caracteres sueltos (II)

Encadenamiento de métodos

Iniciar capítulo

3

Ajuste a supuestos estadísticos

En este capítulo te centrarás en analizar la distribución subyacente de tus datos y si puede afectar a tu flujo de trabajo de Machine Learning. Aprenderás a tratar datos asimétricos y situaciones en las que los valores atípicos pueden estar afectando negativamente a tu análisis.

Distribuciones de datos

¿Cómo son tus datos? (I)

¿Cómo es tu conjunto de datos? (II)

¿Cuándo no tienes que transformar tus datos?

Escalado y transformaciones

Normalización

Estandarización

Transformación logarítmica

¿Cuándo puedes usar la normalización?

Eliminación de valores atípicos

Eliminación de valores atípicos basada en porcentaje

Eliminación de valores atípicos estadísticos

Escalar y transformar datos nuevos

Transformaciones en entrenamiento y prueba (I)

Transformaciones en entrenamiento y prueba (II)

Iniciar capítulo

4

Trabajo con datos de texto

Por último, en este capítulo trabajarás con datos de texto no estructurados para entender cómo puedes crear características en columnas a partir de un corpus de texto. Compararás cómo distintos enfoques influyen en la cantidad de contexto que se extrae del texto y cómo equilibrar la necesidad de contexto sin generar demasiadas características.

Codificación de texto

Limpiar tu texto

Características de texto de alto nivel

Recuento de palabras

Contando palabras (I)

Contando palabras (II)

Limitando tus características

Texto a DataFrame

Frecuencia de término–frecuencia inversa de documento

Inspecciona valores Tf-idf

Transformar datos no vistos

Usar n-gramas más largos

Encontrar las palabras más comunes

Iniciar capítulo

Ingeniería de características para Machine Learning en Python

Curso
completo

Obtener certificado de logros

Añade esta certificación a tu perfil de LinkedIn o a tu currículum.
Compártelo en redes sociales y en tu evaluación de desempeño.Inscríbete ahora

¡Únete a 19 millones de estudiantes y empieza Ingeniería de características para Machine Learning en Python hoy mismo!

Desarrolla tus habilidades de datos con la aplicación móvil de DataCamp

Progresa desde cualquier dispositivo móvil con nuestros cursos y desafíos de programación diarios de 5 minutos.