Curso

Los cuadernos Jupyter son documentos de contenido técnico y de ciencia de datos. Este tutorial ofrece una visión general de los cuadernos Jupyter, sus componentes y cómo utilizarlos.
Exploraremos los cuadernos utilizando DataLab, un servicio de cuadernos alojados que proporciona toda la funcionalidad de los cuadernos Jupyter, junto con funciones para conectarse a bases de datos, colaboración en tiempo real y publicación del trabajo.
Este tutorial asume que usted ha utilizado un lenguaje de programación de ciencia de datos antes, como Python, SQL, R, o Julia.
Visión general de los cuadernos
Los cuadernos combinan código informático (como Python, SQL o R), el resultado de ejecutar el código y elementos de texto enriquecido (formato, tablas, figuras, ecuaciones, enlaces, etc.) en un único documento.
La principal ventaja de los cuadernos es la posibilidad de incluir comentarios en el código. Esto significa que puede evitar el proceso propenso a errores de copiar y pegar los resultados de los análisis en un informe independiente. En su lugar, simplemente mezcla tu análisis con el texto del informe en el cuaderno.
¿Quién debería utilizar Jupyter Notebooks?
Los cuadernos Jupyter son utilizados principalmente por profesionales de los datos, en particular analistas y científicos de datos. Según los resultados de la Encuesta Kaggle 2022, Jupyter Notebooks es el IDE de ciencia de datos más popular, utilizado por más del 80% de los encuestados.
Tipos de Jupyter Notebook
Existen dos tipos principales de Jupyter Notebook: alojados y locales. DataCamp proporciona DataLab, un Jupyter Notebook alojado que utilizaremos para la mayor parte de este tutorial. DataLab es una opción excelente para estudiantes y profesionales que no desean configurar un entorno local.
Excepto cuando se indique lo contrario, la funcionalidad descrita en este tutorial funcionará en otras versiones de Jupyter notebook. Si prefieres utilizar un entorno local, puedes instalar Jupyter Notebook en tu máquina utilizando nuestro tutorial Instalar Jupyter Notebook. Marcus Schanta mantiene una lista de otras plataformas de portátiles alojados.
Componentes de un cuaderno
Un Jupyter Notebook consta de tres componentes principales: celdas, un entorno de ejecución y un sistema de archivos.
Las celdas son las unidades individuales del cuaderno, y pueden contener texto o código:
- Las celdas de texto se utilizan para escribir texto narrativo e incluyen imágenes, enlaces y ecuaciones.
- Las celdas de texto están escritas en Markdown, un lenguaje de marcado sencillo.
- Las celdas de código se utilizan para escribir y ejecutar código.
- La salida de las celdas de código se mostrará directamente debajo de la celda de código.
- Las celdas SQL (sólo DataLab) se utilizan para ejecutar consultas SQL, lo que significa que puede recuperar fácilmente datos de una base de datos.
- Las celdas de gráficos (sólo DataLab) se pueden utilizar para crear visualizaciones y visualizar rápidamente marcos de datos Pandas.
El entorno de ejecución se encarga de ejecutar el código del cuaderno. El entorno de ejecución puede configurarse para admitir distintos lenguajes, como Python, R o SQL.
El sistema de archivos le permite cargar, almacenar y descargar archivos de datos, archivos de código y resultados de sus análisis.
Modo comando y modo edición
Los cuadernos Jupyter tienen dos modos diferentes de interacción: modo comando y modo edición. En el modo de comandos, puede navegar entre celdas, añadir y eliminar celdas y cambiar el tipo de celda. En el modo de edición, puede editar el contenido de una celda.
Para entrar en el modo de comandos, puede pulsar Escape o hacer clic fuera de una celda. Para entrar en el modo de edición, puede pulsar Intro o hacer clic dentro de una celda.
En DataLab, puede hacer clic en los botones "Añadir texto" o "Añadir código" para añadir una nueva celda.

Obtener ayuda
Para Jupyter notebook, puedes obtener ayuda utilizando la documentación o usando la opción del menú. En DataLab, se puede acceder rápidamente a la ayuda y a los atajos de teclado pulsando el botón de ayuda del menú.

Texto escrito
Las celdas de texto están escritas en el lenguaje de marcado Markdown, lo que permite escribir y formatear texto fácilmente. En el modo de edición, puede utilizar sintaxis como ** ** para negrita, o utilizar los botones, para dar formato a su texto.
He aquí algunas opciones:

Al pulsar Mayúsculas + Intro o el botón "Ver" se ejecutará la celda, dando el siguiente resultado.

- Las líneas que empiezan por # son un encabezado de nivel superior. Comience con ## para una cabecera de segundo nivel, ### para una cabecera de tercer nivel, y así sucesivamente.
- Rodee el texto con ** para ponerlo en negrita, __ para ponerlo en cursiva y ` para darle formato de código.
- Empieza las líneas consecutivas con - para convertirlas en una lista con viñetas.
- Empieza las líneas con números seguidos de un punto para convertirlas en una lista numerada.
- Los hipervínculos se escriben en dos partes. El texto a mostrar se pone entre corchetes y la url entre paréntesis.
Escribir y ejecutar código
Pulsando 'Añadir Código' o introduciendo un comando con (escape) y pulsando 'B' se añadirá un nuevo bloque de código.

Escriba el código en la celda como lo haría en un script.

Pulsando Ejecutar o CTRL/CMD+Intro se ejecuta el código y se muestra su salida.

Lectura y escritura de archivos
Si pulsas "Examinar y cargar archivos" en el menú de la izquierda, aparecerá el sistema de archivos, y si pulsas el signo "más", podrás cargar un archivo desde tu máquina local. A continuación, hemos cargado un archivo de texto simple llamado hola_mundo.txt.


Podemos utilizar el siguiente código para abrir el archivo, añadir algo de texto, y luego guardar un nuevo archivo.

Ahora verá el nuevo archivo en el sistema de archivos, y contendrá nuestras actualizaciones.

Trabajar con el sistema de archivos
Hemos mostrado cómo cargar, actualizar y crear un nuevo archivo. Para descargar el nuevo archivo, pulsa los tres puntos en el sistema de archivos y pulsa descargar.

El botón más utilizado para crear nuevos archivos también se puede utilizar para crear cuadernos nuevos, que no tendrán celdas ni salida.

Celdas de mando
Puede reordenar rápidamente las celdas con los botones de desplazamiento hacia arriba y hacia abajo, como se muestra en la imagen siguiente.

Esto reordenará su código. (Ten en cuenta que tu código puede romperse si intentas ejecutarlo en el orden incorrecto).
El botón Ocultar Código contraerá y ocultará el código; esto es útil para bloques de código muy largos en los que no esté trabajando en ese momento. También es útil si a los lectores de su análisis no les interesan los detalles técnicos y sólo quieren ver los resultados.

Del mismo modo, el botón Ocultar salida permite ocultar salidas largas.
botones también se pueden utilizar juntos para ocultar tanto el código como la salida.
Publicación de informes (sólo DataLab)
DataLab le permite publicar sus cuadernos como publicaciones. Es una forma estupenda de mostrar tu excelente trabajo y colaborar con otros científicos de datos.
Puedes publicar tu cuaderno pulsando el botón "Publicar" del menú lateral. A partir de ahí, pulsa publicar para compartir tu cuaderno. Es una buena idea recorrer el cuaderno de arriba abajo antes de publicarlo. Esto ayuda a comprobar el código y garantiza su legibilidad, ya que la mayoría de la gente lee de arriba abajo.

Una vez publicado tu cuaderno, otros usuarios pueden ver la publicación y comentar las celdas individuales. Tú también puedes hacer lo mismo con los demás. Es una forma estupenda de abrir un debate o comprender un fragmento de código complejo. He aquí un ejemplo de lugar de trabajo:

Compartir cuadernos Jupyter (sólo DataLab)

Compartir libros de trabajo es otra función útil exclusiva de DataLab. Como el cuaderno está alojado, puedes compartir un enlace público o privado de acceso controlado que el receptor puede ejecutar por sí mismo.
Es una forma fantástica de colaborar. La Ciencia de Datos es un campo amplio y profundo, lo que significa que no se espera que una sola persona lo sepa todo. Los científicos de datos deben colaborar para obtener los mejores resultados, ya sea un código eficiente, visualizaciones atractivas o un modelo preciso. DataLab permite la colaboración en tiempo real, en la que varias personas pueden editar un cuaderno a la vez.
Para compartir tu cuaderno, pulsa el botón de compartir en la parte superior derecha. Aquí puedes copiar el enlace, hacer que la libreta sea privada/pública y establecer quién puede acceder a ella (si es privada).
Pasar al siguiente nivel
Inicie hoy mismo su viaje por la ciencia de datos registrándose gratuitamente en DataLab. Si te quedas atascado, la documentación de DataLab es un buen lugar para obtener más información.


