Ir al contenido principal
InicioSpark

Curso

Introducción a Spark SQL en Python

AvanzadoNivel de habilidad
Actualizado 3/2026
Aprende a manipular datos y crear conjuntos de características de machine learning en Spark utilizando SQL en Python.
Comienza el curso gratis
SparkData Manipulation
4 h
15 vídeos
52 Ejercicios
4,200 XP
20,388
Certificado de logros

Crea tu cuenta gratuita

Continuar con GoogleMostrar más opciones

o


Al continuar, aceptas nuestros Términos de uso, nuestra Política de privacidad y que tus datos se almacenen en los EE. UU.

Preferido por estudiantes en miles de empresas

Group

¿Formando un equipo?

Prueba para empresas

Descripción del curso

Aprende Spark SQL

Si estás familiarizado con SQL y has oído cosas muy buenas sobre Apache Spark, este curso es para ti. Apache Spark es un marco informático para procesar grandes volúmenes de datos, y Spark SQL es un componente de Apache Spark. Este curso de cuatro horas te enseñará cómo llevar Spark a un nuevo nivel de utilidad mediante el uso de funciones SQL avanzadas, como las funciones de ventana.

A lo largo de cuatro capítulos, utilizarás Spark SQL para analizar datos de series temporales, extraer las palabras más comunes de un documento de texto, crear conjuntos de características a partir de texto en lenguaje natural y utilizarlos para predecir la última palabra de una frase mediante regresión logística.

Descubre los usos de Spark SQL

Comenzarás creando y consultando una tabla SQL en Spark, además de aprender a utilizar las funciones de ventana SQL para realizar sumas acumuladas, diferencias acumuladas y otras operaciones.

A continuación, explorarás cómo utilizar la función de ventana en Spark SQL para el procesamiento del lenguaje natural, incluido el uso de un análisis de ventana móvil para encontrar secuencias de palabras comunes.

En el capítulo 3, aprenderás a utilizar la interfaz de usuario de SQL Spark para almacenar correctamente en caché los DataFrame y las tablas SQL antes de explorar las prácticas recomendadas para el registro en Spark.

Por último, utilizas todas las habilidades aprendidas hasta ahora para cargar y tokenizar el texto sin procesar antes de extraer secuencias de palabras. A continuación, utilizarás la regresión logística para clasificar el texto, utilizando datos de lenguaje natural sin procesar para entrenar un clasificador de texto.

Obtén una introducción completa a Spark SQL.

Al finalizar el curso, tendrás un conocimiento sólido de Spark SQL y comprenderás cómo Spark combina la potencia de la computación distribuida con la facilidad de uso de Python y SQL.

Requisitos previos

Python ToolboxPostgreSQL Summary Stats and Window FunctionsIntroduction to PySpark
1

PySpark SQL

En este capítulo aprenderás a crear y consultar una tabla SQL en Spark. Spark SQL aporta la expresividad de SQL a Spark. También verás cómo usar funciones de ventana en SQL dentro de Spark. Las funciones de ventana realizan un cálculo sobre filas relacionadas con la fila actual. Simplifican mucho la obtención de resultados que son difíciles de expresar solo con joins y agregaciones tradicionales. Usaremos funciones de ventana para realizar sumas acumuladas, diferencias acumuladas y otras operaciones que son complejas en SQL básico.
Iniciar capítulo
2

Uso de funciones de ventana SQL para procesamiento de lenguaje natural

En este capítulo, cargarás texto en lenguaje natural. Luego aplicarás un análisis con ventana deslizante para encontrar secuencias de palabras frecuentes.
Iniciar capítulo
3

Caché, registro y la Spark UI

En los capítulos anteriores aprendiste a usar la expresividad del SQL con funciones de ventana. Sin embargo, precisamente por esa expresividad, ahora es importante que sepas cómo almacenar correctamente en caché los dataframes y las tablas SQL. También es clave saber cómo evaluar tu aplicación. Aprenderás a hacerlo con la Spark UI. Además, verás una práctica recomendada para el registro (logging) en Spark. Spark SQL aporta otra herramienta útil para ajustar problemas de rendimiento en las consultas: el plan de ejecución. Aprenderás a usar el plan de ejecución para evaluar la procedencia de un dataframe.
Iniciar capítulo
4

Clasificación de texto

Los capítulos anteriores te dieron las herramientas para cargar texto en bruto, tokenizarlo y extraer secuencias de palabras. Esto ya es muy útil para el análisis, pero también lo es para Machine Learning. Ahora pondrás todo en conjunto usando regresión logística para clasificar texto. Al finalizar este capítulo, habrás cargado datos de texto en lenguaje natural en bruto y los habrás usado para entrenar un clasificador de texto.
Iniciar capítulo
Introducción a Spark SQL en Python
Curso
completo

Obtener certificado de logros

Añade esta certificación a tu perfil de LinkedIn o a tu currículum.
Compártelo en redes sociales y en tu evaluación de desempeño.
Inscríbete ahora

¡Únete a 19 millones de estudiantes y empieza Introducción a Spark SQL en Python hoy mismo!

Crea tu cuenta gratuita

Continuar con GoogleMostrar más opciones

o


Al continuar, aceptas nuestros Términos de uso, nuestra Política de privacidad y que tus datos se almacenen en los EE. UU.

Desarrolla tus habilidades de datos con la aplicación móvil de DataCamp

Progresa desde cualquier dispositivo móvil con nuestros cursos y desafíos de programación diarios de 5 minutos.