Saltar al contenido principal
InicioTutorialesPython

Instalación de PySpark (Todos los sistemas operativos)

Este tutorial mostrará la instalación de PySpark y cómo gestionar las variables de entorno en los sistemas operativos Windows, Linux y Mac.
may 2024  · 8 min leer

banner

Pyspark = Python + Apache Spark

Apache Spark es un marco de trabajo nuevo y de código abierto utilizado en el sector de los macrodatos para el procesamiento en tiempo real y por lotes. Es compatible con diferentes lenguajes, como Python, Scala, Java y R.

Apache Spark está escrito inicialmente en un lenguaje de máquina virtual Java (JVM) llamado Scala, mientras que Pyspark es como una API de Python que contiene una biblioteca llamada Py4J. Esto permite una interacción dinámica con los objetos de la JVM.

Instalación en Windows

La instalación que se va a mostrar es para el sistema operativo Windows. Consiste en la instalación de Java con la variable de entorno y Apache Spark con la variable de entorno.

El prerrequisito de instalación recomendado es Python, que se realiza desde aquí.

Instalación de Java

  1. Vaya a Descargar Java JDK.
    Visite el sitio web de Oracle para descargar Java Development Kit(JDK).

  2. Mover a la sección de descarga que consiste en el sistema operativo Windows, y en mi caso, es Windows Offline(64-bit). Se descargará el archivo de instalación. Instalación de Java

  3. Abra el archivo de instalación y comenzará la descarga. Instalación de Java

  4. Vaya a "Símbolo del sistema" y escriba "java -version" para conocer la versión y saber si está instalado o no. Instalación de Java

  5. Añada la ruta de Java Instalación de Java

  6. Vaya a la barra de búsqueda y "EDITAR LAS VARIABLES DE ENTORNO". Instalación de Java
  7. Haga clic en "Variables de entorno" Instalación de Java
  8. Haga clic en "Nuevo" para crear su nueva variable de entorno. Instalación de Java
  9. Utilice como nombre de variable "JAVA_HOME" y como valor de variable "C:\Program Files (x86)\Java\jdk1.8.0_251". Esta es la ubicación del archivo Java. Haga clic en "Aceptar" cuando haya terminado el proceso. Instalación de Java
  10. Vamos a añadir la variable User y seleccionar 'Path' y hacer click en 'New' para crearla. Instalación de Java
  11. Añada el nombre de la variable como 'PATH' y el valor de la ruta como 'C:\program Files (x86)\ Java\jdk1.8.0_251\bin', que es la ubicación de su archivo bin de Java. Haga clic en "Aceptar" cuando haya terminado el proceso. Instalación de Java

Nota: Puede localizar su archivo Java accediendo a la unidad C, que es C:\Program Files (x86)\ Java\jdk1.8.0_251' si no ha cambiado de ubicación durante la descarga. Instalación de Java

Instalación de Pyspark

  1. Vaya a la página principal de Spark.

  2. Seleccione la versión de Spark y el tipo de paquete como se indica a continuación y descargue el archivo .tgz.

Instalación de Pyspark Instalación de Pyspark

Puedes crear una nueva carpeta llamada 'spark' en el directorio C y extraer el archivo dado usando 'Winrar', que te será útil después.

Descargar e instalar winutils.exe

Vaya a Winutils elija su versión de Hadoop previamente descargada, luego descargue el archivo winutils.exe entrando en 'bin'. El enlace a mi versión de Hadoop es: https://github.com/steveloughran/winutils/blob/master/hadoop-2.7.1/bin/winutils.exe

Crea una nueva carpeta llamada 'winutils' y dentro de ella crea de nuevo una nueva carpeta llamada 'bin'.Entonces pon el archivo recién descargado 'winutils' dentro de ella.

Variables de entorno

  1. Vamos a crear un nuevo entorno donde el nombre de la variable como "hadoop_home" y el valor de la variable para ser la ubicación de winutils, que es "C:\winutils" y haga clic en "Aceptar".
    Variables de entorno
  2. Para spark, también vamos a crear un nuevo entorno donde el nombre de la variable es "Spark_home" y el valor de la variable para ser la ubicación de spark, que es "C:\spark" y haga clic en "Aceptar".
    Variables de entorno
  3. Por último, haga doble clic en la 'ruta' y cambie lo siguiente como se hace a continuación donde se crea una nueva ruta "%Spark_Home%\bin' se añade y haga clic en "Aceptar".
    Variables de entorno

Finalización de la instalación de Pyspark

  1. Abra el símbolo del sistema y escriba el siguiente comando.
    Finalización de la instalación de Pyspark
  2. Una vez que todo se ha realizado con éxito, se obtiene el siguiente mensaje.
    Finalizando la instalación de Pyspark

Instalación de Linux

La instalación que se va a mostrar es para el Sistema Operativo Linux. Consiste en la instalación de Java con la variable de entorno junto con Apache Spark y la variable de entorno.

El prerrequisito de instalación recomendado es Python, que se realiza desde aquí.

Java Installation

  1. Vaya a Descargar Java JDK.
    Visite el sitio web de Oracle para descargar el kit de desarrollo de Java (JDK).

  2. Vaya a la sección de descargas del sistema operativo Linux y descárguelo según los requisitos de su sistema.
    Instalación de Java
  3. Guarde el archivo y haga clic en "Aceptar" para guardarlo en su equipo local.
    Instalación de Java
  4. Vaya a su terminal y compruebe el archivo descargado recientemente mediante el comando 'ls'.
    Instalación de Java
  5. Instale el paquete utilizando el siguiente comando, que instalará el paquete debian de java, recientemente descargado. Instalación de Java
  6. Por último, puede comprobar la versión de Java con el comando 'java --version'.
    Instalación de Java
  7. Para configurar las variables de entorno, abramos el editor de texto 'gedit' utilizando el siguiente comando.
    Instalación de Java
  8. Hagamos el cambio proporcionando la siguiente información donde se especifica la ruta 'Java'.
    Instalación de Java
  9. Para realizar un último cambio, escribamos el siguiente comando. Instalación de Java

Instalación de Spark

  1. Vaya a la página principal de Spark.
  2. Seleccione la versión de Spark y el tipo de paquete como se indica a continuación y descargue el archivo .tgz. Instalación de Spark
    Instalación de Spark
  3. Guarde el archivo en su equipo local y haga clic en "Aceptar".
    Instalación de Spark
  4. Abra su terminal y vaya al archivo recién descargado.
    Instalación de Spark
  5. Vamos a extraer el archivo utilizando el siguiente comando.
    Instalación de Spark
  6. Tras extraer el archivo, se crea el nuevo archivo y se muestra mediante el comando list('ls').
    Instalación de Spark

Configuración de variables de entorno en Linux

  1. Abramos el archivo 'bashrc' usando el 'editor vim' con el comando 'vim ~/.bashrc'.
    Configurando la Variable de Entorno en Linux
  2. Proporcione la siguiente información de acuerdo con la ruta adecuada en su ordenador. En mi caso, las siguientes fueron las rutas requeridas para mi ubicación de Spark, Python y Java. Además, primero pulse 'Esc' y luego escriba ":wq" para guardar y salir de vim.
    Configuración de la variable de entorno en Linux
  3. Para realizar un cambio final, guarde y salga. Esto da como resultado el acceso al comando pyspark en cualquier parte del directorio. Configuración de la variable de entorno en Linux
  4. Abra pyspark usando el comando 'pyspark', y el mensaje final se mostrará como se muestra a continuación. de la variable de entorno en Linux Configuración Configuración de la variable de entorno en Linux

Instalación en Mac

La instalación que se va a mostrar es para el sistema operativo Mac. Consiste en la instalación de Java con la variable de entorno junto con Apache Spark y la variable de entorno.

El prerrequisito de instalación recomendado es Python, que se realiza desde aquí.

Java Installation

  1. Vaya a Descargar Java JDK.
    Visite el sitio web de Oracle para descargar el kit de desarrollo de Java (JDK).

  2. Mover a la sección de descarga que consiste en el sistema operativo Linux y descargar de acuerdo a su requisito del sistema.
    Instalación de Java
  3. La instalación de Java puede confirmarse utilizando $java --showversion en el Terminal.

Instalación de Apache Spark

  1. Vaya a la página principal de Spark.
  2. Seleccione la versión de Spark y el tipo de paquete como se indica a continuación y descargue el archivo .tgz. Instalación de
    Instalación de Apache Spark
  3. Guarde el archivo en su equipo local y haga clic en "Aceptar".
  4. Vamos a extraer el archivo utilizando el siguiente comando.
    $ tar -xzf spark-2.4.6-bin-hadoop2.7.tgz

Configuración de variables de entorno para Apache Spark y Python

Tienes que abrir el archivo ~/.bashrc o ~/.zshrc dependiendo de la versión actual de tu Mac.

export SPARK_HOME="/Downloads/spark"
export PATH=$SPARK_HOME/bin:$PATH
export PYSPARK_PYTHON=python3

Abra pyspark utilizando el comando 'pyspark', y el mensaje final se mostrará como se muestra a continuación. Configuración de la variable de entorno para Apache Spark y Python

Enhorabuena

Enhorabuena, has llegado al final de este tutorial.

En este tutorial, has aprendido acerca de la instalación de Pyspark, el inicio de la instalación de Java junto con Apache Spark y la gestión de las variables de entorno en Windows, Linux y Mac Sistema Operativo.

Si desea obtener más información sobre Pyspark, realice la Introducción a Pyspark de DataCamp.

Consulte nuestro tutorial sobre Apache Spark en : ML con PySpark.

Temas

Cursos de PySpark

Course

Introduction to PySpark

4 hr
134.8K
Learn to implement distributed data management and machine learning in Spark using the PySpark package.
See DetailsRight Arrow
Start Course
Ver másRight Arrow
Relacionado

blog

Tutorial: cómo instalar Python en macOS y Windows

Aprende a instalar Python en tu equipo personal con este tutorial paso a paso. Tanto si eres usuario de Windows como de macOS, descubre varios métodos para iniciarte en Python en tu equipo.

Richie Cotton

14 min

tutorial

Tutorial de Pyspark: Primeros pasos con Pyspark

Descubre qué es Pyspark y cómo se puede utilizar, con ejemplos.
Natassha Selvaraj's photo

Natassha Selvaraj

10 min

tutorial

Tutorial de instalación de Anaconda en Windows

Este tutorial te mostrará cómo puedes instalar Anaconda, un potente gestor de paquetes, en Microsoft Windows.
DataCamp Team's photo

DataCamp Team

5 min

tutorial

Tutorial sobre cómo instalar R en Windows, Mac OS X y Ubuntu

Esta es una guía para principiantes diseñada para ahorrarte dolores de cabeza y un tiempo valioso si decides instalar R tú mismo.
Francisco Javier Carrera Arias's photo

Francisco Javier Carrera Arias

6 min

tutorial

Tutorial de introducción a JupyterLab

En este artículo, le presentaremos JupyterLab, uno de los IDE más populares para la ciencia de datos.
Javier Canales Luna's photo

Javier Canales Luna

7 min

tutorial

Tutorial sobre la ejecución de scripts de Python en Power BI

Descubre las distintas formas de utilizar Python para optimizar el análisis, la visualización y el modelado de datos en Power BI.
Joleen Bothma's photo

Joleen Bothma

9 min

See MoreSee More