Introducción a Spark SQL en Python

AvanzadoNivel de habilidad

Actualizado 3/2026

Aprende a manipular datos y crear conjuntos de características de machine learning en Spark utilizando SQL en Python.

Descripción del curso

Aprende Spark SQL

Si estás familiarizado con SQL y has oído cosas muy buenas sobre Apache Spark, este curso es para ti. Apache Spark es un marco informático para procesar grandes volúmenes de datos, y Spark SQL es un componente de Apache Spark. Este curso de cuatro horas te enseñará cómo llevar Spark a un nuevo nivel de utilidad mediante el uso de funciones SQL avanzadas, como las funciones de ventana.

A lo largo de cuatro capítulos, utilizarás Spark SQL para analizar datos de series temporales, extraer las palabras más comunes de un documento de texto, crear conjuntos de características a partir de texto en lenguaje natural y utilizarlos para predecir la última palabra de una frase mediante regresión logística.

Descubre los usos de Spark SQL

Comenzarás creando y consultando una tabla SQL en Spark, además de aprender a utilizar las funciones de ventana SQL para realizar sumas acumuladas, diferencias acumuladas y otras operaciones.

A continuación, explorarás cómo utilizar la función de ventana en Spark SQL para el procesamiento del lenguaje natural, incluido el uso de un análisis de ventana móvil para encontrar secuencias de palabras comunes.

En el capítulo 3, aprenderás a utilizar la interfaz de usuario de SQL Spark para almacenar correctamente en caché los DataFrame y las tablas SQL antes de explorar las prácticas recomendadas para el registro en Spark.

Por último, utilizas todas las habilidades aprendidas hasta ahora para cargar y tokenizar el texto sin procesar antes de extraer secuencias de palabras. A continuación, utilizarás la regresión logística para clasificar el texto, utilizando datos de lenguaje natural sin procesar para entrenar un clasificador de texto.

Obtén una introducción completa a Spark SQL.

Al finalizar el curso, tendrás un conocimiento sólido de Spark SQL y comprenderás cómo Spark combina la potencia de la computación distribuida con la facilidad de uso de Python y SQL.

Requisitos previos

Python Toolbox PostgreSQL Summary Stats and Window Functions Introduction to PySpark

PySpark SQL

En este capítulo aprenderás a crear y consultar una tabla SQL en Spark. Spark SQL aporta la expresividad de SQL a Spark. También verás cómo usar funciones de ventana en SQL dentro de Spark. Las funciones de ventana realizan un cálculo sobre filas relacionadas con la fila actual. Simplifican mucho la obtención de resultados que son difíciles de expresar solo con joins y agregaciones tradicionales. Usaremos funciones de ventana para realizar sumas acumuladas, diferencias acumuladas y otras operaciones que son complejas en SQL básico.

Descripción del curso

Aprende Spark SQL

Descubre los usos de Spark SQL

Obtén una introducción completa a Spark SQL.

Obtener certificado de logros

¡Únete a .css-nklxlk{color:var(--wf-brand--main, #03EF62);}19 millones de estudiantes y empieza Introducción a Spark SQL en Python hoy mismo!

Crea tu cuenta gratuita

Desarrolla tus habilidades de datos con la aplicación móvil de DataCamp

¡Únete a 19 millones de estudiantes y empieza Introducción a Spark SQL en Python hoy mismo!