Instalación de PySpark (Todos los sistemas operativos)

Este tutorial mostrará la instalación de PySpark y cómo gestionar las variables de entorno en los sistemas operativos Windows, Linux y Mac.

3 may 2024 · 8 min de lectura

Instalación en Windows
Instalación de Linux
Instalación en Mac

Pyspark = Python + Apache Spark

Apache Spark es un marco de trabajo nuevo y de código abierto utilizado en el sector de los macrodatos para el procesamiento en tiempo real y por lotes. Es compatible con diferentes lenguajes, como Python, Scala, Java y R.

Apache Spark está escrito inicialmente en un lenguaje de máquina virtual Java (JVM) llamado Scala, mientras que Pyspark es como una API de Python que contiene una biblioteca llamada Py4J. Esto permite una interacción dinámica con los objetos de la JVM.

Instalación en Windows

La instalación que se va a mostrar es para el sistema operativo Windows. Consiste en la instalación de Java con la variable de entorno y Apache Spark con la variable de entorno.

El prerrequisito de instalación recomendado es Python, que se realiza desde aquí.

Instalación de Java

Vaya a Descargar Java JDK.
Visite el sitio web de Oracle para descargar Java Development Kit(JDK).
Mover a la sección de descarga que consiste en el sistema operativo Windows, y en mi caso, es Windows Offline(64-bit). Se descargará el archivo de instalación.
Abra el archivo de instalación y comenzará la descarga.
Vaya a "Símbolo del sistema" y escriba "java -version" para conocer la versión y saber si está instalado o no.
Añada la ruta de Java
Vaya a la barra de búsqueda y "EDITAR LAS VARIABLES DE ENTORNO".
Haga clic en "Variables de entorno"
Haga clic en "Nuevo" para crear su nueva variable de entorno.
Utilice como nombre de variable "JAVA_HOME" y como valor de variable "C:\Program Files (x86)\Java\jdk1.8.0_251". Esta es la ubicación del archivo Java. Haga clic en "Aceptar" cuando haya terminado el proceso.
Vamos a añadir la variable User y seleccionar 'Path' y hacer click en 'New' para crearla.
Añada el nombre de la variable como 'PATH' y el valor de la ruta como 'C:\program Files (x86)\ Java\jdk1.8.0_251\bin', que es la ubicación de su archivo bin de Java. Haga clic en "Aceptar" cuando haya terminado el proceso.

Nota: Puede localizar su archivo Java accediendo a la unidad C, que es C:\Program Files (x86)\ Java\jdk1.8.0_251' si no ha cambiado de ubicación durante la descarga.

Instalación de Pyspark

Vaya a la página principal de Spark.
Seleccione la versión de Spark y el tipo de paquete como se indica a continuación y descargue el archivo .tgz.

Puedes crear una nueva carpeta llamada 'spark' en el directorio C y extraer el archivo dado usando 'Winrar', que te será útil después.

Descargar e instalar winutils.exe

Vaya a Winutils elija su versión de Hadoop previamente descargada, luego descargue el archivo winutils.exe entrando en 'bin'. El enlace a mi versión de Hadoop es: https://github.com/steveloughran/winutils/blob/master/hadoop-2.7.1/bin/winutils.exe

Crea una nueva carpeta llamada 'winutils' y dentro de ella crea de nuevo una nueva carpeta llamada 'bin'.Entonces pon el archivo recién descargado 'winutils' dentro de ella.

Variables de entorno

Vamos a crear un nuevo entorno donde el nombre de la variable como "hadoop_home" y el valor de la variable para ser la ubicación de winutils, que es "C:\winutils" y haga clic en "Aceptar".
Para spark, también vamos a crear un nuevo entorno donde el nombre de la variable es "Spark_home" y el valor de la variable para ser la ubicación de spark, que es "C:\spark" y haga clic en "Aceptar".
Por último, haga doble clic en la 'ruta' y cambie lo siguiente como se hace a continuación donde se crea una nueva ruta "%Spark_Home%\bin' se añade y haga clic en "Aceptar".

Finalización de la instalación de Pyspark

Abra el símbolo del sistema y escriba el siguiente comando.
Una vez que todo se ha realizado con éxito, se obtiene el siguiente mensaje.

Instalación de Linux

La instalación que se va a mostrar es para el Sistema Operativo Linux. Consiste en la instalación de Java con la variable de entorno junto con Apache Spark y la variable de entorno.

El prerrequisito de instalación recomendado es Python, que se realiza desde aquí.

Java Installation

Vaya a Descargar Java JDK.
Visite el sitio web de Oracle para descargar el kit de desarrollo de Java (JDK).
Vaya a la sección de descargas del sistema operativo Linux y descárguelo según los requisitos de su sistema.
Guarde el archivo y haga clic en "Aceptar" para guardarlo en su equipo local.
Vaya a su terminal y compruebe el archivo descargado recientemente mediante el comando 'ls'.
Instale el paquete utilizando el siguiente comando, que instalará el paquete debian de java, recientemente descargado.
Por último, puede comprobar la versión de Java con el comando 'java --version'.
Para configurar las variables de entorno, abramos el editor de texto 'gedit' utilizando el siguiente comando.
Hagamos el cambio proporcionando la siguiente información donde se especifica la ruta 'Java'.
Para realizar un último cambio, escribamos el siguiente comando.

Instalación de Spark

Vaya a la página principal de Spark.
Seleccione la versión de Spark y el tipo de paquete como se indica a continuación y descargue el archivo .tgz.
Guarde el archivo en su equipo local y haga clic en "Aceptar".
Abra su terminal y vaya al archivo recién descargado.
Vamos a extraer el archivo utilizando el siguiente comando.
Tras extraer el archivo, se crea el nuevo archivo y se muestra mediante el comando list('ls').

Configuración de variables de entorno en Linux

Abramos el archivo 'bashrc' usando el 'editor vim' con el comando 'vim ~/.bashrc'.
Proporcione la siguiente información de acuerdo con la ruta adecuada en su ordenador. En mi caso, las siguientes fueron las rutas requeridas para mi ubicación de Spark, Python y Java. Además, primero pulse 'Esc' y luego escriba ":wq" para guardar y salir de vim.
Para realizar un cambio final, guarde y salga. Esto da como resultado el acceso al comando pyspark en cualquier parte del directorio.
Abra pyspark usando el comando 'pyspark', y el mensaje final se mostrará como se muestra a continuación. Configuración

Instalación en Mac

La instalación que se va a mostrar es para el sistema operativo Mac. Consiste en la instalación de Java con la variable de entorno junto con Apache Spark y la variable de entorno.

El prerrequisito de instalación recomendado es Python, que se realiza desde aquí.

Java Installation

Vaya a Descargar Java JDK.
Visite el sitio web de Oracle para descargar el kit de desarrollo de Java (JDK).
Mover a la sección de descarga que consiste en el sistema operativo Linux y descargar de acuerdo a su requisito del sistema.
La instalación de Java puede confirmarse utilizando $java --showversion en el Terminal.

Instalación de Apache Spark

Vaya a la página principal de Spark.
Seleccione la versión de Spark y el tipo de paquete como se indica a continuación y descargue el archivo .tgz. de
Guarde el archivo en su equipo local y haga clic en "Aceptar".
Vamos a extraer el archivo utilizando el siguiente comando.
$ tar -xzf spark-2.4.6-bin-hadoop2.7.tgz

Configuración de variables de entorno para Apache Spark y Python

Tienes que abrir el archivo ~/.bashrc o ~/.zshrc dependiendo de la versión actual de tu Mac.

export SPARK_HOME="/Downloads/spark"
export PATH=$SPARK_HOME/bin:$PATH
export PYSPARK_PYTHON=python3

Abra pyspark utilizando el comando 'pyspark', y el mensaje final se mostrará como se muestra a continuación.

Enhorabuena

Enhorabuena, has llegado al final de este tutorial.

En este tutorial, has aprendido acerca de la instalación de Pyspark, el inicio de la instalación de Java junto con Apache Spark y la gestión de las variables de entorno en Windows, Linux y Mac Sistema Operativo.

Si desea obtener más información sobre Pyspark, realice la Introducción a Pyspark de DataCamp.

Consulte nuestro tutorial sobre Apache Spark en : ML con PySpark.

Temas

Python

Ciencia de datos

Cursos de PySpark

Curso

Introducción a PySpark

4 h

155.9K

Aprende a implementar la gestión de datos distribuidos y el machine learning en Spark utilizando el paquete PySpark.

Ver detalles

Comienza el curso

Curso

Machine learning con PySpark

4 h

27.2K

Haz predicciones a partir de datos con Apache Spark mediante árboles de decisión, regresión logística, regresión lineal, ensambles y pipelines.

Ver detalles

Comienza el curso

Curso

Limpiar datos con PySpark

4 h

30.8K

Aprende a limpiar datos con Apache Spark en Python.

Ver detalles

Comienza el curso

Relacionado

blog

Tutorial: cómo instalar Python en macOS y Windows

Aprende a instalar Python en tu equipo personal con este tutorial paso a paso. Tanto si eres usuario de Windows como de macOS, descubre varios métodos para iniciarte en Python en tu equipo.

Richie Cotton

14 min

Tutorial

Tutorial de Pyspark: Primeros pasos con Pyspark

Descubre qué es Pyspark y cómo se puede utilizar, con ejemplos.

Natassha Selvaraj

Tutorial

Tutorial de instalación de Anaconda en Windows

Este tutorial te mostrará cómo puedes instalar Anaconda, un potente gestor de paquetes, en Microsoft Windows.

DataCamp Team

Tutorial

Tutorial sobre cómo instalar R en Windows, Mac OS X y Ubuntu

Esta es una guía para principiantes diseñada para ahorrarte dolores de cabeza y un tiempo valioso si decides instalar R tú mismo.

Francisco Javier Carrera Arias

Tutorial

Tutorial de introducción a JupyterLab

En este artículo, le presentaremos JupyterLab, uno de los IDE más populares para la ciencia de datos.

Javier Canales Luna

Tutorial

Tutorial sobre la ejecución de scripts de Python en Power BI

Descubre las distintas formas de utilizar Python para optimizar el análisis, la visualización y el modelado de datos en Power BI.

Joleen Bothma

Ver más Ver más

Instalación en Windows

Instalación de Java

Instalación de Pyspark

Descargar e instalar winutils.exe

Variables de entorno

Finalización de la instalación de Pyspark

Instalación de Linux

Java Installation

Instalación de Spark

Configuración de variables de entorno en Linux

Instalación en Mac

Java Installation

Instalación de Apache Spark

Configuración de variables de entorno para Apache Spark y Python

Enhorabuena

Tutorial: cómo instalar Python en macOS y Windows

Tutorial de Pyspark: Primeros pasos con Pyspark

Tutorial de instalación de Anaconda en Windows

Tutorial sobre cómo instalar R en Windows, Mac OS X y Ubuntu

Tutorial de introducción a JupyterLab

Tutorial sobre la ejecución de scripts de Python en Power BI

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}Introducción a PySpark

Machine learning con PySpark

Limpiar datos con PySpark

Tutorial: cómo instalar Python en macOS y Windows

Tutorial de Pyspark: Primeros pasos con Pyspark

Tutorial de instalación de Anaconda en Windows

Tutorial sobre cómo instalar R en Windows, Mac OS X y Ubuntu

Tutorial de introducción a JupyterLab

Tutorial sobre la ejecución de scripts de Python en Power BI

Introducción a PySpark