Los 11 mejores proyectos de ingeniería de datos para el aprendizaje práctico

Muestra tus habilidades en ingeniería de datos a través de estos proyectos de cartera. Practica y profundiza en el conocimiento de diversas tecnologías para mostrar a los posibles empleadores tus puntos fuertes.

Actualizado 7 nov 2024 · 15 min leer

La ingeniería de datos apoya el movimiento y la transformación de los datos. A medida que las empresas dependen de enormes cantidades de datos para obtener información e impulsar la innovación, la demanda de ingenieros de datos sigue creciendo.

Para los profesionales de los datos, sumergirse en proyectos de ingeniería de datos ofrece una gran cantidad de oportunidades. Los retos prácticos agudizan tus habilidades técnicas y te proporcionan una cartera tangible para mostrar tus conocimientos y experiencia.

En este artículo, he recopilado una selección de proyectos de ingeniería de datos diseñados para ayudarte a mejorar tus habilidades y afrontar con confianza los retos de datos del mundo real.

¿Por qué trabajar en proyectos de ingeniería de datos?

Es importante construir una sólida comprensión de la ingeniería de datos a través de la teoría y la práctica. Si estás leyendo este artículo, puede que ya lo sepas, pero aquí tienes tres razones concretas para sumergirte en estos proyectos:

Desarrollar habilidades técnicas

Los proyectos de ingeniería de datos proporcionan experiencia práctica con tecnologías y metodologías. Desarrollarás destreza en lenguajes de programación, gestión de bases de datos, procesamiento de big data y computación en la nube. Estas habilidades técnicas son fundamentales para las funciones de ingeniería de datos y muy transferibles a toda la industria tecnológica.

Desarrollo de la cartera

Crear una cartera de proyectos de ingeniería de datos demuestra tus capacidades prácticas a posibles empleadores. Aportas pruebas tangibles de tus capacidades mostrando implementaciones de canalizaciones de datos, diseños de almacenes y soluciones de optimización.

Un portafolio sólido te distingue en el mercado laboral y complementa tu currículum con logros del mundo real.

Herramientas y tecnologías de aprendizaje

El campo de la ingeniería de datos emplea un conjunto diverso de herramientas y tecnologías. Trabajar en proyectos te expone a marcos de procesamiento de datos, herramientas de gestión de flujos de trabajo y plataformas de visualización.

Esta experiencia práctica te mantiene al día de las tendencias del sector y mejora tu adaptabilidad en un panorama tecnológico en evolución.

Proyectos de ingeniería de datos para principiantes

Estos proyectos pretenden dar a conocer las principales herramientas utilizadas por los ingenieros de datos. Empieza por aquí si eres nuevo en la ingeniería de datos o necesitas un repaso.

Proyecto 1: Canal ETL con datos abiertos (CSV a SQL)

Este proyecto consiste en construir una canalización ETL utilizando un conjunto de datos disponible públicamente, como datos meteorológicos o de transporte. Extraerás los datos de un archivo CSV, los limpiarás y transformarás utilizando Python (con una biblioteca como Pandas), y cargarás los datos transformados en Google BigQuery, un almacén de datos basado en la nube.

Este proyecto es excelente para principiantes, ya que introduce los conceptos básicos de ETL -extracción, transformación y carga de datos-, a la vez que proporciona exposición a herramientas en la nube como BigQuery.

También aprenderás a interactuar con almacenes de datos en la nube, una habilidad fundamental en la ingeniería de datos moderna, utilizando herramientas sencillas como Python y la API BigQuery. Para una introducción, revisa la guía para principiantes de BigQuery.

En cuanto a los datos, puedes seleccionar un conjunto de datos disponible en Kaggle o en data.gov.

Recursos

Aquí tienes algunos recursos, incluidos repositorios de GitHub y tutoriales, que te guiarán paso a paso:

Vídeos de YouTube:

ETL Batch Pipeline con Cloud Storage, Dataflow y BigQuery: Este vídeo muestra un caso de uso completo de una canalización ETL por lotes desplegada en Google Cloud, que ilustra las etapas de extracción, transformación y carga en BigQuery.

Repositorios de GitHub:

Canalización de datos de extremo a extremo: Este repositorio demuestra una canalización totalmente automatizada que extrae datos de archivos CSV, los transforma utilizando Python y dbt, y los carga en Google BigQuery.
ETL Pipeline con Airflow y BigQuery: Este proyecto muestra una canalización ETL orquestada con Apache Airflow que automatiza la extracción de datos de archivos CSV, la transformación mediante Python y la carga en BigQuery.

Cursos:

ETL y ELT en Python: Aprende más sobre los procesos ETL en Python, cubriendo conceptos básicos e implementaciones prácticas para construir canalizaciones de datos.
Comprender la arquitectura moderna de datos: Este curso ofrece una visión global de la arquitectura de datos moderna, centrándose en las mejores prácticas para mover y estructurar datos en sistemas basados en la nube como BigQuery.

Habilidades desarrolladas

Extraer datos de CSV con Python
Transformar y limpiar datos con Python
Cargar datos en BigQuery con Python y SQL

Proyecto 2: Canalización de datos meteorológicos con Python y PostgreSQL

Este proyecto introduce a los aspirantes a ingenieros de datos en el proceso fundamental de construcción de una canalización de datos, centrándose en tres aspectos fundamentales de la ingeniería de datos: recopilación, limpieza y almacenamiento de datos.

Utilizando Python, obtendrás las condiciones y previsiones meteorológicas de varios lugares a partir de API meteorológicas públicas fácilmente disponibles. Una vez recopilados los datos meteorológicos, procesarás los datos brutos, lo que puede implicar convertir las unidades de temperatura, tratar los valores que faltan o normalizar los nombres de las ubicaciones. Por último, almacenarás los datos depurados en una base de datos PostgreSQL.

Este proyecto es un buen punto de partida para los nuevos ingenieros de datos. Abarca los fundamentos de la construcción de una canalización de datos utilizando herramientas ampliamente utilizadas en el sector.

Recursos

Aquí tienes algunos recursos valiosos, incluidos repositorios y tutoriales de GitHub, que te guiarán paso a paso para completar este proyecto:

Vídeos de YouTube:

Construye una tubería de datos ETL que extraiga datos meteorológicos a través de la API OpenWeather (Python/PostgreSQL/SQL): Este tutorial muestra cómo extraer datos meteorológicos utilizando la API OpenWeather, transformarlos y cargarlos en una base de datos PostgreSQL.

Repositorios de GitHub:

Meteorología y Calidad del Aire ETL Pipeline: Este repositorio demuestra una canalización ETL que extrae datos meteorológicos y de calidad del aire de API públicas, los transforma en un formato limpio y analizable, y los carga en una base de datos PostgreSQL.
Proyecto de Integración de Datos Meteorológicos: Una canalización ETL de extremo a extremo que extrae datos meteorológicos, los transforma y los carga en una base de datos PostgreSQL.

Cursos:

Crear bases de datos PostgreSQL: Este curso ofrece una guía exhaustiva de PostgreSQL, que abarca los conocimientos esenciales para crear, gestionar y optimizar bases de datos, un paso fundamental en la canalización de datos meteorológicos.
Ingeniero de Datos en Python: Este curso cubre las habilidades básicas de ingeniería de datos, incluida la recopilación, transformación y almacenamiento de datos, proporcionando un buen punto de partida para la creación de canalizaciones en Python.

Habilidades desarrolladas

Usar Python para escribir aplicaciones de canalización de datos
Recoger datos de fuentes externas (API)
Limpiar los datos para que sean coherentes y comprensibles
Crear bases de datos y almacenar y organizar datos en ellas

Proyecto 3: Análisis del transporte en Londres

Este proyecto ofrece un excelente punto de partida para los aspirantes a ingenieros de datos. Te introduce en el trabajo con datos reales de una importante red de transporte público que gestiona más de 1,5 millones de desplazamientos diarios.

La fuerza del proyecto reside en el uso de soluciones de almacén de datos estándar del sector, como Snowflake, Amazon Redshift, Google BigQuery o Databricks. Estas plataformas son cruciales en la ingeniería de datos moderna, ya que te permiten procesar y analizar eficazmente grandes conjuntos de datos.

Analizando las tendencias del transporte, los métodos populares y los patrones de uso, aprenderás a extraer ideas significativas de grandes conjuntos de datos, una competencia básica en la ingeniería de datos.

Recursos

Aquí tienes algunos recursos, como proyectos guiados y cursos, que te orientan paso a paso:

Proyectos guiados:

Explorando la Red de Viajes de Londres: Este proyecto guiado te enseña a analizar los datos del transporte público de Londres, ayudándote a explorar tendencias, rutas populares y pautas de uso. Adquirirás experiencia en el análisis de datos a gran escala utilizando datos reales de una importante red de transporte público.

Cursos:

Conceptos de almacenamiento de datos: Este curso cubre los principios esenciales del almacenamiento de datos, incluyendo arquitecturas y casos de uso para plataformas como Snowflake, Redshift y BigQuery. Es una base excelente para implantar soluciones de almacenamiento y procesamiento de datos a gran escala.

Habilidades desarrolladas

Comprender el contexto de la escritura de consultas mediante una mejor comprensión de los datos.
Trabajar con grandes conjuntos de datos.
Comprender los conceptos de big data.
Trabajar con almacenes de datos y herramientas de big data, como Snowflake, Redshift, BigQuery o Databricks.

Conviértete en Ingeniero de Datos

Conviértete en un ingeniero de datos mediante el aprendizaje avanzado de Python

Empieza a aprender gratis

Proyectos Intermedios de Ingeniería de Datos

Estos proyectos se centran en habilidades como ser mejor programador y mezclar diferentes plataformas de datos. Estas habilidades técnicas son esenciales para tu capacidad de contribuir a una pila tecnológica existente y trabajar como parte de un equipo más grande.

Proyecto 4: Realizar una revisión del código

Este proyecto consiste en revisar el código de otro ingeniero de datos. Aunque puede que no sea tan práctico con la tecnología como otros proyectos, ser capaz de revisar el código de otros es una parte importante del crecimiento como ingeniero de datos.

Leer y revisar código es una habilidad tan importante como escribir código. Después de comprender los conceptos y prácticas fundamentales de la ingeniería de datos, puedes aplicarlos a la revisión del código de otros para asegurarte de que sigue las mejores prácticas y reduce los posibles errores en el código.

Recursos

Aquí tienes algunos recursos valiosos, como proyectos y artículos, que te orientarán paso a paso:

Proyectos guiados:

Realizar una revisión del código: Este proyecto guiado ofrece una experiencia práctica en la revisión de código, simulando el proceso de revisión de código como si fueras un profesional senior de datos. Es una forma excelente de practicar la identificación de posibles errores y de garantizar que se siguen las mejores prácticas.

Artículos:

Cómo hacer una revisión del código: Este recurso ofrece recomendaciones para realizar revisiones de código de forma eficaz, basadas en una amplia experiencia, y cubre diversos aspectos del proceso de revisión.

Habilidades desarrolladas

Leer y evaluar el código escrito por otros ingenieros de datos
Encontrar fallos y errores lógicos al revisar el código
Proporcionar comentarios sobre el código de forma clara y útil

Proyecto 5: Construir un canal de datos para el comercio minorista

En este proyecto, construirás una tubería ETL completa con los datos minoristas de Walmart. Recuperarás datos de diversas fuentes, como bases de datos SQL y archivos Parquet, aplicarás técnicas de transformación para preparar y limpiar los datos y, por último, los cargarás en un formato fácilmente accesible.

Este proyecto es excelente para adquirir conocimientos básicos y avanzados de ingeniería de datos, ya que abarca habilidades esenciales como la extracción de datos de múltiples formatos, la transformación de datos para un análisis significativo y la carga de datos para un almacenamiento y acceso eficientes. Ayuda a reforzar conceptos como el manejo de diversas fuentes de datos, la optimización de los flujos de datos y el mantenimiento de canalizaciones escalables.

Recursos

Aquí tienes algunos recursos valiosos, como proyectos guiados y cursos, que te orientarán paso a paso:

Proyectos guiados:

Construir un canal de datos para el comercio minorista: Este proyecto guiado te lleva a construir una canalización de datos minoristas utilizando los datos minoristas de Walmart. Aprenderás a recuperar datos de bases de datos SQL y archivos Parquet, transformarlos para su análisis y cargarlos en un formato accesible.

Cursos:

Diseño de bases de datos: Una sólida comprensión del diseño de bases de datos es esencial cuando se trabaja en canalizaciones de datos. Este curso cubre los fundamentos del diseño y la estructuración de bases de datos, lo que resulta valioso para manejar diversas fuentes de datos y optimizar el almacenamiento.

Habilidades desarrolladas

Diseñar canalizaciones de datos para casos de uso del mundo real.
Extraer datos de múltiples fuentes y diferentes formatos.
Limpiar y transformar datos de distintos formatos para mejorar su coherencia y calidad.
Cargar estos datos en un formato fácilmente accesible.

Proyecto 6: Factores que influyen en el rendimiento de los alumnos con SQL

En este proyecto, analizarás una amplia base de datos centrada en diversos factores que influyen en el éxito de los estudiantes, como los hábitos de estudio, los patrones de sueño y la participación de los padres. Mediante la elaboración de consultas SQL, investigarás las relaciones entre estos factores y las calificaciones de los exámenes, explorando cuestiones como el efecto de las actividades extraescolares y el sueño en el rendimiento académico.

Este proyecto desarrolla tus habilidades de ingeniería de datos, mejorando tu capacidad para manipular y consultar bases de datos con eficacia.

Desarrollarás destrezas en el análisis de datos, la interpretación y la obtención de perspectivas a partir de conjuntos de datos complejos, esenciales para tomar decisiones basadas en datos en contextos educativos y más allá.

Recursos

Aquí tienes algunos recursos, como proyectos guiados y cursos, que te orientan paso a paso:

Proyectos guiados:

Factores que impulsan el rendimiento de los alumnos: Este proyecto guiado te permite explorar la influencia de diversos factores en el éxito de los estudiantes mediante el análisis de una amplia base de datos. Utilizarás SQL para investigar las relaciones entre los hábitos de estudio, los patrones de sueño y el rendimiento académico, adquiriendo experiencia en el análisis educativo basado en datos.

Cursos:

Manipulación de datos en SQL: Una base sólida en manipulación de datos SQL es clave para este proyecto. Este curso abarca las técnicas SQL para extraer, transformar y analizar datos en bases de datos relacionales, dotándote de las habilidades necesarias para manejar conjuntos de datos complejos.

Habilidades desarrolladas

Escribir y optimizar consultas SQL para recuperar y manipular datos con eficacia.
Analizar conjuntos de datos complejos para identificar tendencias y relaciones.
Formular hipótesis e interpretar los resultados a partir de los datos.

Proyectos avanzados de ingeniería de datos

Un rasgo distintivo de un ingeniero de datos avanzado es la capacidad de crear canalizaciones que puedan manejar multitud de tipos de datos en diferentes tecnologías. Estos proyectos se centran en ampliar tu conjunto de habilidades combinando múltiples herramientas avanzadas de ingeniería de datos para crear sistemas de procesamiento de datos escalables.

Proyecto 7: Limpiar un conjunto de datos con Pyspark

Utilizando una herramienta avanzada como PySpark, puedes construir pipelines que aprovechen las capacidades de Apache Spark.

Antes de que intentes construir un proyecto como éste, es importante que completes un curso introductorio para comprender los fundamentos de PySpark. Estos conocimientos básicos te permitirán utilizar plenamente esta herramienta para extraer, transformar y cargar datos con eficacia.

Recursos

Aquí tienes algunos recursos valiosos, como proyectos guiados, cursos y tutoriales, que te orientarán paso a paso:

Proyectos guiados:

Limpieza de un conjunto de datos de pedidos con PySpark: Este proyecto guiado te guía a través de la limpieza de un conjunto de datos de pedidos de comercio electrónico utilizando PySpark, ayudándote a comprender cómo extraer, transformar y cargar datos de forma escalable con Apache Spark.

Cursos:

Introducción a PySpark: Este curso proporciona una introducción en profundidad a PySpark, cubriendo conceptos y técnicas esenciales para trabajar eficazmente con grandes conjuntos de datos en Spark. Es un punto de partida ideal para construir una base sólida en PySpark.

Tutorías:

Tutorial de PySpark: Primeros pasos con PySpark: Este tutorial presenta los componentes básicos de PySpark, guiándote a través de la configuración y las operaciones fundamentales para que puedas empezar con confianza a construir canalizaciones de datos con PySpark.

Habilidades desarrolladas

Ampliar la experiencia con PySpark
Limpieza y transformación de datos para las partes interesadas
Ingesta de grandes lotes de datos
Profundización del conocimiento de Python en los procesos ETL

Proyecto 8: Modelado de datos con dbt y BigQuery

Una herramienta moderna, popular y potente para los ingenieros de datos es dbt (Herramienta de Construcción de Datos), que permite a los ingenieros de datos seguir un enfoque de desarrollo de software. Ofrece control de versiones intuitivo, pruebas, generación de código boilerplate, linaje y entornos. dbt puede combinarse con BigQuery u otros almacenes de datos en la nube para almacenar y gestionar tus conjuntos de datos.

Este proyecto te permitirá crear pipelines en dbt, generar vistas y vincular los datos finales a BigQuery.

Recursos

Aquí tienes algunos recursos valiosos, como cursos y tutoriales en vídeo, que te orientarán paso a paso:

Vídeos de YouTube:

Ingeniería de datos moderna de extremo a extremo con dbt: En este vídeo, CodeWithYu ofrece un completo recorrido sobre la configuración y el uso de dbt con BigQuery, que abarca los pasos para crear canalizaciones de datos y generar vistas. Es una guía útil para principiantes que aprenden a combinar dbt y BigQuery en un flujo de trabajo de ingeniería de datos.

Cursos:

Introducción al dbt: Este curso presenta los fundamentos del dbt, abarcando conceptos básicos como los flujos de trabajo Git, las pruebas y la gestión de entornos. Es un excelente punto de partida para utilizar dbt con eficacia en proyectos de ingeniería de datos.

Habilidades desarrolladas

Aprende sobre dbt
Más información sobre BigQuery
Comprender cómo crear transformaciones basadas en SQL
Utilizar las mejores prácticas de ingeniería de software en la ingeniería de datos (control de versiones, pruebas y documentación)

Proyecto 9: Airflow y Snowflake ETL utilizando almacenamiento S3 y BI en Tableau

Con este proyecto, veremos cómo utilizar Airflow para extraer datos mediante una API y transferirlos a Snowflake utilizando un bucket de Amazon S3. El objetivo es manejar el ETL en Airflow y el almacenamiento analítico en Snowflake.

Se trata de un proyecto excelente porque se conecta a múltiples fuentes de datos a través de varios sistemas de almacenamiento en la nube, todo ello orquestado con Airflow. Este proyecto es muy completo porque tiene muchas partes móviles y se parece a una arquitectura de datos del mundo real. Este proyecto también aborda la inteligencia empresarial (BI) añadiendo visualizaciones en Tableau.

Recursos

Aquí tienes algunos recursos valiosos, como cursos y tutoriales en vídeo, que te orientarán paso a paso:

Vídeos de YouTube:

Canalización de datos con Airflow, S3 y Snowflake: En este vídeo, Seattle Data Guy demuestra cómo utilizar Airflow para extraer datos de la API PredictIt, cargarlos en Amazon S3, realizar transformaciones Snowflake y crear visualizaciones Tableau. Esta guía integral es ideal para comprender la integración de múltiples herramientas en una canalización de datos.

Cursos:

Introducción a Apache Airflow en Python: Este curso proporciona una visión general de Apache Airflow, cubriendo conceptos esenciales como DAGs, operadores y dependencias de tareas. Es una gran base para entender cómo estructurar y gestionar los flujos de trabajo en Airflow.
Introducción a Copo de Nieve: Este curso presenta Snowflake, una potente solución de almacenamiento de datos. Abarca la gestión del almacenamiento de datos, las consultas y la optimización. Es perfecto para adquirir conocimientos básicos antes de trabajar con Snowflake en canalizaciones de datos.
Visualización de datos en Tableau: Este curso cubre las habilidades esenciales de Tableau para la visualización de datos, permitiéndote convertir los datos en visuales perspicaces, un paso fundamental para interpretar los resultados de la canalización de datos.

Habilidades desarrolladas

Practica la creación de DAGs en Airflow
Practica la conexión a una API en Python
Practica el almacenamiento de datos en buckets de Amazon S3
Mover datos de Amazon a Snowflake para su análisis
Visualización sencilla de datos en Tableau
Crear una plataforma de datos completa e integral

Proyecto 10: Reddit ETL en AWS con Airflow

Este proyecto aborda una compleja canalización de datos con múltiples pasos utilizando herramientas avanzadas de procesamiento de datos en el ecosistema de AWS.

Empieza configurando tu Apache Airflow para que extraiga datos de Reddit y los transforme utilizando SQL. Después, conectarás tus datos a AWS poniéndolos en un bucket S3, donde utilizaremos AWS Glue para formatear un poco más. A continuación, puedes utilizar Athena para probar las consultas antes de almacenar los datos en Redshift para realizar consultas analíticas y de almacenamiento de datos a más largo plazo.

Recursos

Aquí tienes algunos recursos, como cursos y videotutoriales, que te orientarán paso a paso:

Vídeos de YouTube:

Proyecto de ingeniería de canalización de datos de Reddit: CodeWithYu demuestra en este vídeo una canalización completa de datos de Reddit, incluyendo la extracción de datos con Airflow, transformaciones con PostgreSQL e integración con servicios de AWS como S3, Glue, Athena y Redshift. Este recorrido es una guía útil para abordar los pasos de varias capas en una canalización de datos compleja.

Cursos:

Introducción a AWS: Este curso proporciona una base sólida en AWS, cubriendo conceptos y herramientas esenciales. Comprender los fundamentos de los servicios de AWS como S3, Glue, Athena y Redshift será crucial para llevar a cabo con éxito este proyecto.
Introducción a Redshift: Este curso ofrece una introducción completa a Amazon Redshift, centrándose en los conceptos de almacenamiento de datos, la arquitectura de Redshift y las habilidades esenciales para administrar y consultar grandes conjuntos de datos. Es un recurso excelente para profundizar en tu comprensión de Redshift dentro de las canalizaciones de AWS.

Habilidades desarrolladas

Introducir los datos del sitio web en Airflow
Utilizar PostgreSQL para transformar datos
Conecta Airflow a AWS para transferir datos a buckets S3
Utilizar AWS Glue para ETL
Utiliza AWS Athena para consultas sencillas
Transfiere datos de S3 a Amazon Redshift para el almacenamiento de datos

Proyecto 11: Construir una canalización de datos en tiempo real con PySpark, Kafka y Redshift

En este proyecto, crearás una robusta canalización de datos en tiempo real utilizando PySpark, Apache Kafka y Amazon Redshift para manejar grandes volúmenes de ingestión, procesamiento y almacenamiento de datos.

La canalización capturará datos de varias fuentes en tiempo real, los procesará y transformará utilizando PySpark, y cargará los datos transformados en Redshift para su posterior análisis. Además, implantarás la supervisión y las alertas para garantizar la exactitud de los datos y la fiabilidad de las canalizaciones.

Este proyecto es una excelente oportunidad para adquirir conocimientos básicos sobre el procesamiento de datos en tiempo real y el manejo de tecnologías de big data, como Kafka para el streaming y Redshift para el almacenamiento de datos en la nube.

Recursos

Aquí tienes algunos recursos, como cursos y videotutoriales, que te orientarán paso a paso:

Vídeos de YouTube:

Construir una canalización de datos en tiempo real con PySpark, Kafka y Redshift: Este vídeo de Darshir Parmar te guía a través de la construcción de una completa canalización de datos en tiempo real con PySpark, Kafka y Redshift. Incluye pasos para la ingesta, transformación y carga de datos. El vídeo también cubre las técnicas de supervisión y alerta para garantizar el rendimiento de las tuberías.

Cursos:

Introducción a Apache Kafka: Este curso cubre los fundamentos de Apache Kafka, un componente crucial para el flujo de datos en tiempo real en este proyecto. Proporciona una visión general de la arquitectura de Kafka y de cómo implementarla en canalizaciones de datos.
Conceptos de streaming: Este curso introduce los conceptos fundamentales del streaming de datos, incluyendo el procesamiento en tiempo real y las arquitecturas basadas en eventos. Es un recurso ideal para adquirir conocimientos básicos antes de construir canalizaciones en tiempo real.

Cuadro resumen de los proyectos de ingeniería de datos

Aquí tienes un resumen de los proyectos de ingeniería de datos anteriores para que tengas una referencia rápida de los distintos proyectos:

Proyecto	Nivel	Habilidades	Herramientas
Canalización de datos meteorológicos	Principiante	Python para escribir aplicaciones pipeline, conexiones API, limpieza de datos	Python, PostgreSQL
Canalización ETL con datos abiertos	Principiante	Lectura de datos CSV con Python y Pandas, limpieza de datos, carga de datos en BigQuery	Python, BigQuery
Análisis del transporte en Londres	Principiante	Trabajar con grandes conjuntos de datos, trabajar con almacenes de datos	BigQuery
Realizar una revisión del código	Intermedio	Revisión del código, Evaluación del código, corrección de errores en el código	Habilidades de codificación
Construir un canal de datos para el comercio minorista	Intermedio	Data pipelines, ETL	Python, SQL
Factores que influyen en el rendimiento de los alumnos	Intermedio	Consultas SQL para el análisis de datos	SQL
Limpiar un conjunto de datos con PySpark	Avanzado	Limpieza, transformación y formateo de datos, utilizando PySpark	PySpark, Python
Ingeniería de datos con dbt y BigQuery	Avanzado	Utilizar dbt para transformaciones basadas en SQL, transferir datos entre plataformas	Dbt, BigQuery
Airflow y Snowflake ETL utilizando almacenamiento S3	Avanzado	Creación de canalizaciones ETL complejas utilizando DAGs de Airflow, Traslado de datos de Airflow a Snowflake	Airflow, Snowflake, Tableau
Proyecto Reddit ETL a AWS	Avanzado	Conexión a API, práctica de PostgreSQL para limpiar y transferir datos desde S3, AWS Glue, Athena y Redshift	Airflow, PostgreSQL, AWS S3, AWS Glue, AWS Athena, Amazon Redshift
Construir una canalización de datos en tiempo real con PySpark, Kafka y Redshift	Avanzado	Ingesta de datos en tiempo real, procesamiento, supervisión y carga de datos en un almacén de datos	PySpark, Kafka, Amazon Redshift

Conclusión

Este artículo presenta excelentes proyectos que te ayudarán a practicar tus conocimientos de ingeniería de datos.

Céntrate en comprender los conceptos fundamentales del funcionamiento de cada herramienta; esto te permitirá utilizar estos proyectos en tu búsqueda de empleo y explicarlos con éxito. Asegúrate de repasar cualquier concepto que te resulte difícil.

Además de crear una cartera de proyectos, obtener una certificación en ingeniería de datos puede ser una valiosa adición a tu currículum, ya que demuestra tu compromiso de completar los cursos pertinentes.

Conviértete en Ingeniero de Datos

Demuestra tus habilidades como ingeniero de datos preparado para el trabajo.

Acelerar mi carrera en el sector de los datos

¿Qué habilidades necesito para empezar a trabajar en proyectos de ingeniería de datos?

¿Cómo pueden ayudar los proyectos de ingeniería de datos a construir mi cartera?

¿Son necesarias herramientas en la nube como AWS y Google BigQuery para los proyectos de ingeniería de datos?

¿Cómo elijo el proyecto de ingeniería de datos adecuado a mi nivel de conocimientos?

Author

Tim Lu

Temas

Ingeniería de datos

¡Aprende más sobre ingeniería de datos con estos cursos!

programa

Ingeniero de Datos Profesional en Python

40 h

Sumérgete a fondo en las habilidades avanzadas y las herramientas de última generación que revolucionan las funciones de la ingeniería de datos hoy en día con nuestro curso de Ingeniero de Datos Profesional.

Ver detalles

Iniciar curso

Curso

Introducción a la ingeniería de datos

4 h

125.2K

Conoce el mundo de la ingeniería de datos en este breve curso que abarca herramientas y temas como ETL e informática en la nube.

Ver detalles

Iniciar curso

Curso

Conceptos de almacenamiento de datos

4 h

43K

Este curso introductorio y conceptual te ayudará a comprender los fundamentos del almacenamiento de datos.

Ver detalles

Iniciar curso

Relacionado

blog

5 habilidades esenciales en ingeniería de datos para 2026

Descubre las habilidades de ingeniería de datos que necesitas para prosperar en el sector. Descubre cuáles son las funciones y responsabilidades de un ingeniero de datos y cómo puedes desarrollar tus propias habilidades.

Joleen Bothma

11 min

blog

Cómo convertirse en ingeniero de datos en 2025: 5 pasos para el éxito profesional

Descubre cómo convertirte en ingeniero de datos y aprende las habilidades esenciales. Desarrolla tus conocimientos y tu cartera para prepararte para la entrevista de ingeniero de datos.

Javier Canales Luna

15 min

blog

10 proyectos SQL listos para tu portafolio, aptos para todos los niveles

Selecciona tu primer proyecto SQL, o el siguiente, para practicar tus habilidades actuales en SQL, desarrollar otras nuevas y crear un portafolio profesional excepcional.

Elena Kosourova

11 min

blog

Las 15 habilidades más importantes para los científicos de datos en 2026

Una lista de las habilidades imprescindibles que todo científico de datos debería tener en su caja de herramientas, incluidos recursos para desarrollar tus habilidades.

Javier Canales Luna

8 min

Ver más Ver más

¿Por qué trabajar en proyectos de ingeniería de datos?

Desarrollar habilidades técnicas

Desarrollo de la cartera

Herramientas y tecnologías de aprendizaje

Proyectos de ingeniería de datos para principiantes

Proyecto 1: Canal ETL con datos abiertos (CSV a SQL)

Recursos

Habilidades desarrolladas

Proyecto 2: Canalización de datos meteorológicos con Python y PostgreSQL

Recursos

Habilidades desarrolladas

Proyecto 3: Análisis del transporte en Londres

Recursos

Habilidades desarrolladas

Conviértete en Ingeniero de Datos

Proyectos Intermedios de Ingeniería de Datos

Proyecto 4: Realizar una revisión del código

Recursos

Habilidades desarrolladas

Proyecto 5: Construir un canal de datos para el comercio minorista

Recursos

Habilidades desarrolladas

Proyecto 6: Factores que influyen en el rendimiento de los alumnos con SQL

Recursos

Habilidades desarrolladas

Proyectos avanzados de ingeniería de datos

Proyecto 7: Limpiar un conjunto de datos con Pyspark

Recursos

Habilidades desarrolladas

Proyecto 8: Modelado de datos con dbt y BigQuery

Recursos

Habilidades desarrolladas

Proyecto 9: Airflow y Snowflake ETL utilizando almacenamiento S3 y BI en Tableau

Recursos

Habilidades desarrolladas

Proyecto 10: Reddit ETL en AWS con Airflow

Recursos

Habilidades desarrolladas

Proyecto 11: Construir una canalización de datos en tiempo real con PySpark, Kafka y Redshift

Recursos

Cuadro resumen de los proyectos de ingeniería de datos

Conclusión

Conviértete en Ingeniero de Datos

Preguntas frecuentes

¿Son necesarias herramientas en la nube como AWS y Google BigQuery para los proyectos de ingeniería de datos?

¿Cómo elijo el proyecto de ingeniería de datos adecuado a mi nivel de conocimientos?

5 habilidades esenciales en ingeniería de datos para 2026

Cómo convertirse en ingeniero de datos en 2025: 5 pasos para el éxito profesional

10 proyectos SQL listos para tu portafolio, aptos para todos los niveles

Las 15 habilidades más importantes para los científicos de datos en 2026

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}Ingeniero de Datos Profesional en Python

Introducción a la ingeniería de datos

Conceptos de almacenamiento de datos

5 habilidades esenciales en ingeniería de datos para 2026

Cómo convertirse en ingeniero de datos en 2025: 5 pasos para el éxito profesional

10 proyectos SQL listos para tu portafolio, aptos para todos los niveles

Las 15 habilidades más importantes para los científicos de datos en 2026

Ingeniero de Datos Profesional en Python