curso
Los 11 mejores proyectos de ingeniería de datos para el aprendizaje práctico
La ingeniería de datos apoya el movimiento y la transformación de los datos. A medida que las empresas dependen de enormes cantidades de datos para obtener información e impulsar la innovación, la demanda de ingenieros de datos sigue creciendo.
Para los profesionales de los datos, sumergirse en proyectos de ingeniería de datos ofrece una gran cantidad de oportunidades. Los retos prácticos agudizan tus habilidades técnicas y te proporcionan una cartera tangible para mostrar tus conocimientos y experiencia.
En este artículo, he recopilado una selección de proyectos de ingeniería de datos diseñados para ayudarte a mejorar tus habilidades y afrontar con confianza los retos de datos del mundo real.
¿Por qué trabajar en proyectos de ingeniería de datos?
Es importante construir una sólida comprensión de la ingeniería de datos a través de la teoría y la práctica. Si estás leyendo este artículo, puede que ya lo sepas, pero aquí tienes tres razones concretas para sumergirte en estos proyectos:
Desarrollar habilidades técnicas
Los proyectos de ingeniería de datos proporcionan experiencia práctica con tecnologías y metodologías. Desarrollarás destreza en lenguajes de programación, gestión de bases de datos, procesamiento de big data y computación en la nube. Estas habilidades técnicas son fundamentales para las funciones de ingeniería de datos y muy transferibles a toda la industria tecnológica.
Desarrollo de la cartera
Crear una cartera de proyectos de ingeniería de datos demuestra tus capacidades prácticas a posibles empleadores. Aportas pruebas tangibles de tus capacidades mostrando implementaciones de canalizaciones de datos, diseños de almacenes y soluciones de optimización.
Un portafolio sólido te distingue en el mercado laboral y complementa tu currículum con logros del mundo real.
Herramientas y tecnologías de aprendizaje
El campo de la ingeniería de datos emplea un conjunto diverso de herramientas y tecnologías. Trabajar en proyectos te expone a marcos de procesamiento de datos, herramientas de gestión de flujos de trabajo y plataformas de visualización.
Esta experiencia práctica te mantiene al día de las tendencias del sector y mejora tu adaptabilidad en un panorama tecnológico en evolución.
Proyectos de ingeniería de datos para principiantes
Estos proyectos pretenden dar a conocer las principales herramientas utilizadas por los ingenieros de datos. Empieza por aquí si eres nuevo en la ingeniería de datos o necesitas un repaso.
Proyecto 1: Canal ETL con datos abiertos (CSV a SQL)
Este proyecto consiste en construir una canalización ETL utilizando un conjunto de datos disponible públicamente, como datos meteorológicos o de transporte. Extraerás los datos de un archivo CSV, los limpiarás y transformarás utilizando Python (con una biblioteca como Pandas), y cargarás los datos transformados en Google BigQuery, un almacén de datos basado en la nube.
Este proyecto es excelente para principiantes, ya que introduce los conceptos básicos de ETL -extracción, transformación y carga de datos-, a la vez que proporciona exposición a herramientas en la nube como BigQuery.
También aprenderás a interactuar con almacenes de datos en la nube, una habilidad fundamental en la ingeniería de datos moderna, utilizando herramientas sencillas como Python y la API BigQuery. Para una introducción, revisa la guía para principiantes de BigQuery.
En cuanto a los datos, puedes seleccionar un conjunto de datos disponible en Kaggle o en data.gov.
Recursos
Aquí tienes algunos recursos, incluidos repositorios de GitHub y tutoriales, que te guiarán paso a paso:
Vídeos de YouTube:
- ETL Batch Pipeline con Cloud Storage, Dataflow y BigQuery: Este vídeo muestra un caso de uso completo de una canalización ETL por lotes desplegada en Google Cloud, que ilustra las etapas de extracción, transformación y carga en BigQuery.
Repositorios de GitHub:
- Canalización de datos de extremo a extremo: Este repositorio demuestra una canalización totalmente automatizada que extrae datos de archivos CSV, los transforma utilizando Python y dbt, y los carga en Google BigQuery.
- ETL Pipeline con Airflow y BigQuery: Este proyecto muestra una canalización ETL orquestada con Apache Airflow que automatiza la extracción de datos de archivos CSV, la transformación mediante Python y la carga en BigQuery.
Cursos:
- ETL y ELT en Python: Aprende más sobre los procesos ETL en Python, cubriendo conceptos básicos e implementaciones prácticas para construir canalizaciones de datos.
- Comprender la arquitectura moderna de datos: Este curso ofrece una visión global de la arquitectura de datos moderna, centrándose en las mejores prácticas para mover y estructurar datos en sistemas basados en la nube como BigQuery.
Habilidades desarrolladas
- Extraer datos de CSV con Python
- Transformar y limpiar datos con Python
- Cargar datos en BigQuery con Python y SQL
Proyecto 2: Canalización de datos meteorológicos con Python y PostgreSQL
Este proyecto introduce a los aspirantes a ingenieros de datos en el proceso fundamental de construcción de una canalización de datos, centrándose en tres aspectos fundamentales de la ingeniería de datos: recopilación, limpieza y almacenamiento de datos.
Utilizando Python, obtendrás las condiciones y previsiones meteorológicas de varios lugares a partir de API meteorológicas públicas fácilmente disponibles. Una vez recopilados los datos meteorológicos, procesarás los datos brutos, lo que puede implicar convertir las unidades de temperatura, tratar los valores que faltan o normalizar los nombres de las ubicaciones. Por último, almacenarás los datos depurados en una base de datos PostgreSQL.
Este proyecto es un buen punto de partida para los nuevos ingenieros de datos. Abarca los fundamentos de la construcción de una canalización de datos utilizando herramientas ampliamente utilizadas en el sector.
Recursos
Aquí tienes algunos recursos valiosos, incluidos repositorios y tutoriales de GitHub, que te guiarán paso a paso para completar este proyecto:
Vídeos de YouTube:
- Construye una tubería de datos ETL que extraiga datos meteorológicos a través de la API OpenWeather (Python/PostgreSQL/SQL): Este tutorial muestra cómo extraer datos meteorológicos utilizando la API OpenWeather, transformarlos y cargarlos en una base de datos PostgreSQL.
Repositorios de GitHub:
- Meteorología y Calidad del Aire ETL Pipeline: Este repositorio demuestra una canalización ETL que extrae datos meteorológicos y de calidad del aire de API públicas, los transforma en un formato limpio y analizable, y los carga en una base de datos PostgreSQL.
- Proyecto de Integración de Datos Meteorológicos: Una canalización ETL de extremo a extremo que extrae datos meteorológicos, los transforma y los carga en una base de datos PostgreSQL.
Cursos:
- Crear bases de datos PostgreSQL: Este curso ofrece una guía exhaustiva de PostgreSQL, que abarca los conocimientos esenciales para crear, gestionar y optimizar bases de datos, un paso fundamental en la canalización de datos meteorológicos.
- Ingeniero de Datos en Python: Este curso cubre las habilidades básicas de ingeniería de datos, incluida la recopilación, transformación y almacenamiento de datos, proporcionando un buen punto de partida para la creación de canalizaciones en Python.
Habilidades desarrolladas
- Usar Python para escribir aplicaciones de canalización de datos
- Recoger datos de fuentes externas (API)
- Limpiar los datos para que sean coherentes y comprensibles
- Crear bases de datos y almacenar y organizar datos en ellas
Proyecto 3: Análisis del transporte en Londres
Este proyecto ofrece un excelente punto de partida para los aspirantes a ingenieros de datos. Te introduce en el trabajo con datos reales de una importante red de transporte público que gestiona más de 1,5 millones de desplazamientos diarios.
La fuerza del proyecto reside en el uso de soluciones de almacén de datos estándar del sector, como Snowflake, Amazon Redshift, Google BigQuery o Databricks. Estas plataformas son cruciales en la ingeniería de datos moderna, ya que te permiten procesar y analizar eficazmente grandes conjuntos de datos.
Analizando las tendencias del transporte, los métodos populares y los patrones de uso, aprenderás a extraer ideas significativas de grandes conjuntos de datos, una competencia básica en la ingeniería de datos.
Recursos
Aquí tienes algunos recursos, como proyectos guiados y cursos, que te orientan paso a paso:
Proyectos guiados:
- Explorando la Red de Viajes de Londres: Este proyecto guiado te enseña a analizar los datos del transporte público de Londres, ayudándote a explorar tendencias, rutas populares y pautas de uso. Adquirirás experiencia en el análisis de datos a gran escala utilizando datos reales de una importante red de transporte público.
Cursos:
- Conceptos de almacenamiento de datos: Este curso cubre los principios esenciales del almacenamiento de datos, incluyendo arquitecturas y casos de uso para plataformas como Snowflake, Redshift y BigQuery. Es una base excelente para implantar soluciones de almacenamiento y procesamiento de datos a gran escala.
Habilidades desarrolladas
- Comprender el contexto de la escritura de consultas mediante una mejor comprensión de los datos.
- Trabajar con grandes conjuntos de datos.
- Comprender los conceptos de big data.
- Trabajar con almacenes de datos y herramientas de big data, como Snowflake, Redshift, BigQuery o Databricks.
Conviértete en Ingeniero de Datos
Proyectos Intermedios de Ingeniería de Datos
Estos proyectos se centran en habilidades como ser mejor programador y mezclar diferentes plataformas de datos. Estas habilidades técnicas son esenciales para tu capacidad de contribuir a una pila tecnológica existente y trabajar como parte de un equipo más grande.
Proyecto 4: Realizar una revisión del código
Este proyecto consiste en revisar el código de otro ingeniero de datos. Aunque puede que no sea tan práctico con la tecnología como otros proyectos, ser capaz de revisar el código de otros es una parte importante del crecimiento como ingeniero de datos.
Leer y revisar código es una habilidad tan importante como escribir código. Después de comprender los conceptos y prácticas fundamentales de la ingeniería de datos, puedes aplicarlos a la revisión del código de otros para asegurarte de que sigue las mejores prácticas y reduce los posibles errores en el código.
Recursos
Aquí tienes algunos recursos valiosos, como proyectos y artículos, que te orientarán paso a paso:
Proyectos guiados:
- Realizar una revisión del código: Este proyecto guiado ofrece una experiencia práctica en la revisión de código, simulando el proceso de revisión de código como si fueras un profesional senior de datos. Es una forma excelente de practicar la identificación de posibles errores y de garantizar que se siguen las mejores prácticas.
Artículos:
- Cómo hacer una revisión del código: Este recurso ofrece recomendaciones para realizar revisiones de código de forma eficaz, basadas en una amplia experiencia, y cubre diversos aspectos del proceso de revisión.
Habilidades desarrolladas
- Leer y evaluar el código escrito por otros ingenieros de datos
- Encontrar fallos y errores lógicos al revisar el código
- Proporcionar comentarios sobre el código de forma clara y útil
Proyecto 5: Construir un canal de datos para el comercio minorista
En este proyecto, construirás una tubería ETL completa con los datos minoristas de Walmart. Recuperarás datos de diversas fuentes, como bases de datos SQL y archivos Parquet, aplicarás técnicas de transformación para preparar y limpiar los datos y, por último, los cargarás en un formato fácilmente accesible.
Este proyecto es excelente para adquirir conocimientos básicos y avanzados de ingeniería de datos, ya que abarca habilidades esenciales como la extracción de datos de múltiples formatos, la transformación de datos para un análisis significativo y la carga de datos para un almacenamiento y acceso eficientes. Ayuda a reforzar conceptos como el manejo de diversas fuentes de datos, la optimización de los flujos de datos y el mantenimiento de canalizaciones escalables.
Recursos
Aquí tienes algunos recursos valiosos, como proyectos guiados y cursos, que te orientarán paso a paso:
Proyectos guiados:
- Construir un canal de datos para el comercio minorista: Este proyecto guiado te lleva a construir una canalización de datos minoristas utilizando los datos minoristas de Walmart. Aprenderás a recuperar datos de bases de datos SQL y archivos Parquet, transformarlos para su análisis y cargarlos en un formato accesible.
Cursos:
- Diseño de bases de datos: Una sólida comprensión del diseño de bases de datos es esencial cuando se trabaja en canalizaciones de datos. Este curso cubre los fundamentos del diseño y la estructuración de bases de datos, lo que resulta valioso para manejar diversas fuentes de datos y optimizar el almacenamiento.
Habilidades desarrolladas
- Diseñar canalizaciones de datos para casos de uso del mundo real.
- Extraer datos de múltiples fuentes y diferentes formatos.
- Limpiar y transformar datos de distintos formatos para mejorar su coherencia y calidad.
- Cargar estos datos en un formato fácilmente accesible.
Proyecto 6: Factores que influyen en el rendimiento de los alumnos con SQL
En este proyecto, analizarás una amplia base de datos centrada en diversos factores que influyen en el éxito de los estudiantes, como los hábitos de estudio, los patrones de sueño y la participación de los padres. Mediante la elaboración de consultas SQL, investigarás las relaciones entre estos factores y las calificaciones de los exámenes, explorando cuestiones como el efecto de las actividades extraescolares y el sueño en el rendimiento académico.
Este proyecto desarrolla tus habilidades de ingeniería de datos, mejorando tu capacidad para manipular y consultar bases de datos con eficacia.
Desarrollarás destrezas en el análisis de datos, la interpretación y la obtención de perspectivas a partir de conjuntos de datos complejos, esenciales para tomar decisiones basadas en datos en contextos educativos y más allá.
Recursos
Aquí tienes algunos recursos, como proyectos guiados y cursos, que te orientan paso a paso:
Proyectos guiados:
- Factores que impulsan el rendimiento de los alumnos: Este proyecto guiado te permite explorar la influencia de diversos factores en el éxito de los estudiantes mediante el análisis de una amplia base de datos. Utilizarás SQL para investigar las relaciones entre los hábitos de estudio, los patrones de sueño y el rendimiento académico, adquiriendo experiencia en el análisis educativo basado en datos.
Cursos:
- Manipulación de datos en SQL: Una base sólida en manipulación de datos SQL es clave para este proyecto. Este curso abarca las técnicas SQL para extraer, transformar y analizar datos en bases de datos relacionales, dotándote de las habilidades necesarias para manejar conjuntos de datos complejos.
Habilidades desarrolladas
- Escribir y optimizar consultas SQL para recuperar y manipular datos con eficacia.
- Analizar conjuntos de datos complejos para identificar tendencias y relaciones.
- Formular hipótesis e interpretar los resultados a partir de los datos.
Proyectos avanzados de ingeniería de datos
Un rasgo distintivo de un ingeniero de datos avanzado es la capacidad de crear canalizaciones que puedan manejar multitud de tipos de datos en diferentes tecnologías. Estos proyectos se centran en ampliar tu conjunto de habilidades combinando múltiples herramientas avanzadas de ingeniería de datos para crear sistemas de procesamiento de datos escalables.
Proyecto 7: Limpiar un conjunto de datos con Pyspark
Utilizando una herramienta avanzada como PySpark, puedes construir pipelines que aprovechen las capacidades de Apache Spark.
Antes de que intentes construir un proyecto como éste, es importante que completes un curso introductorio para comprender los fundamentos de PySpark. Estos conocimientos básicos te permitirán utilizar plenamente esta herramienta para extraer, transformar y cargar datos con eficacia.
Recursos
Aquí tienes algunos recursos valiosos, como proyectos guiados, cursos y tutoriales, que te orientarán paso a paso:
Proyectos guiados:
- Limpieza de un conjunto de datos de pedidos con PySpark: Este proyecto guiado te guía a través de la limpieza de un conjunto de datos de pedidos de comercio electrónico utilizando PySpark, ayudándote a comprender cómo extraer, transformar y cargar datos de forma escalable con Apache Spark.
Cursos:
- Introducción a PySpark: Este curso proporciona una introducción en profundidad a PySpark, cubriendo conceptos y técnicas esenciales para trabajar eficazmente con grandes conjuntos de datos en Spark. Es un punto de partida ideal para construir una base sólida en PySpark.
Tutorías:
- Tutorial de PySpark: Primeros pasos con PySpark: Este tutorial presenta los componentes básicos de PySpark, guiándote a través de la configuración y las operaciones fundamentales para que puedas empezar con confianza a construir canalizaciones de datos con PySpark.
Habilidades desarrolladas
- Ampliar la experiencia con PySpark
- Limpieza y transformación de datos para las partes interesadas
- Ingesta de grandes lotes de datos
- Profundización del conocimiento de Python en los procesos ETL
Proyecto 8: Modelado de datos con dbt y BigQuery
Una herramienta moderna, popular y potente para los ingenieros de datos es dbt (Herramienta de Construcción de Datos), que permite a los ingenieros de datos seguir un enfoque de desarrollo de software. Ofrece control de versiones intuitivo, pruebas, generación de código boilerplate, linaje y entornos. dbt puede combinarse con BigQuery u otros almacenes de datos en la nube para almacenar y gestionar tus conjuntos de datos.
Este proyecto te permitirá crear pipelines en dbt, generar vistas y vincular los datos finales a BigQuery.
Recursos
Aquí tienes algunos recursos valiosos, como cursos y tutoriales en vídeo, que te orientarán paso a paso:
Vídeos de YouTube:
- Ingeniería de datos moderna de extremo a extremo con dbt: En este vídeo, CodeWithYu ofrece un completo recorrido sobre la configuración y el uso de dbt con BigQuery, que abarca los pasos para crear canalizaciones de datos y generar vistas. Es una guía útil para principiantes que aprenden a combinar dbt y BigQuery en un flujo de trabajo de ingeniería de datos.
Cursos:
- Introducción al dbt: Este curso presenta los fundamentos del dbt, abarcando conceptos básicos como los flujos de trabajo Git, las pruebas y la gestión de entornos. Es un excelente punto de partida para utilizar dbt con eficacia en proyectos de ingeniería de datos.
Habilidades desarrolladas
- Aprende sobre dbt
- Más información sobre BigQuery
- Comprender cómo crear transformaciones basadas en SQL
- Utilizar las mejores prácticas de ingeniería de software en la ingeniería de datos (control de versiones, pruebas y documentación)
Proyecto 9: Airflow y Snowflake ETL utilizando almacenamiento S3 y BI en Tableau
Con este proyecto, veremos cómo utilizar Airflow para extraer datos mediante una API y transferirlos a Snowflake utilizando un bucket de Amazon S3. El objetivo es manejar el ETL en Airflow y el almacenamiento analítico en Snowflake.
Se trata de un proyecto excelente porque se conecta a múltiples fuentes de datos a través de varios sistemas de almacenamiento en la nube, todo ello orquestado con Airflow. Este proyecto es muy completo porque tiene muchas partes móviles y se parece a una arquitectura de datos del mundo real. Este proyecto también aborda la inteligencia empresarial (BI) añadiendo visualizaciones en Tableau.
Recursos
Aquí tienes algunos recursos valiosos, como cursos y tutoriales en vídeo, que te orientarán paso a paso:
Vídeos de YouTube:
- Canalización de datos con Airflow, S3 y Snowflake: En este vídeo, Seattle Data Guy demuestra cómo utilizar Airflow para extraer datos de la API PredictIt, cargarlos en Amazon S3, realizar transformaciones Snowflake y crear visualizaciones Tableau. Esta guía integral es ideal para comprender la integración de múltiples herramientas en una canalización de datos.
Cursos:
- Introducción a Apache Airflow en Python: Este curso proporciona una visión general de Apache Airflow, cubriendo conceptos esenciales como DAGs, operadores y dependencias de tareas. Es una gran base para entender cómo estructurar y gestionar los flujos de trabajo en Airflow.
- Introducción a Copo de Nieve: Este curso presenta Snowflake, una potente solución de almacenamiento de datos. Abarca la gestión del almacenamiento de datos, las consultas y la optimización. Es perfecto para adquirir conocimientos básicos antes de trabajar con Snowflake en canalizaciones de datos.
- Visualización de datos en Tableau: Este curso cubre las habilidades esenciales de Tableau para la visualización de datos, permitiéndote convertir los datos en visuales perspicaces, un paso fundamental para interpretar los resultados de la canalización de datos.
Habilidades desarrolladas
- Practica la creación de DAGs en Airflow
- Practica la conexión a una API en Python
- Practica el almacenamiento de datos en buckets de Amazon S3
- Mover datos de Amazon a Snowflake para su análisis
- Visualización sencilla de datos en Tableau
- Crear una plataforma de datos completa e integral
Proyecto 10: Reddit ETL en AWS con Airflow
Este proyecto aborda una compleja canalización de datos con múltiples pasos utilizando herramientas avanzadas de procesamiento de datos en el ecosistema de AWS.
Empieza configurando tu Apache Airflow para que extraiga datos de Reddit y los transforme utilizando SQL. Después, conectarás tus datos a AWS poniéndolos en un bucket S3, donde utilizaremos AWS Glue para formatear un poco más. A continuación, puedes utilizar Athena para probar las consultas antes de almacenar los datos en Redshift para realizar consultas analíticas y de almacenamiento de datos a más largo plazo.
Recursos
Aquí tienes algunos recursos, como cursos y videotutoriales, que te orientarán paso a paso:
Vídeos de YouTube:
- Proyecto de ingeniería de canalización de datos de Reddit: CodeWithYu demuestra en este vídeo una canalización completa de datos de Reddit, incluyendo la extracción de datos con Airflow, transformaciones con PostgreSQL e integración con servicios de AWS como S3, Glue, Athena y Redshift. Este recorrido es una guía útil para abordar los pasos de varias capas en una canalización de datos compleja.
Cursos:
- Introducción a AWS: Este curso proporciona una base sólida en AWS, cubriendo conceptos y herramientas esenciales. Comprender los fundamentos de los servicios de AWS como S3, Glue, Athena y Redshift será crucial para llevar a cabo con éxito este proyecto.
- Introducción a Redshift: Este curso ofrece una introducción completa a Amazon Redshift, centrándose en los conceptos de almacenamiento de datos, la arquitectura de Redshift y las habilidades esenciales para administrar y consultar grandes conjuntos de datos. Es un recurso excelente para profundizar en tu comprensión de Redshift dentro de las canalizaciones de AWS.
Habilidades desarrolladas
- Introducir los datos del sitio web en Airflow
- Utilizar PostgreSQL para transformar datos
- Conecta Airflow a AWS para transferir datos a buckets S3
- Utilizar AWS Glue para ETL
- Utiliza AWS Athena para consultas sencillas
- Transfiere datos de S3 a Amazon Redshift para el almacenamiento de datos
Proyecto 11: Construir una canalización de datos en tiempo real con PySpark, Kafka y Redshift
En este proyecto, crearás una robusta canalización de datos en tiempo real utilizando PySpark, Apache Kafka y Amazon Redshift para manejar grandes volúmenes de ingestión, procesamiento y almacenamiento de datos.
La canalización capturará datos de varias fuentes en tiempo real, los procesará y transformará utilizando PySpark, y cargará los datos transformados en Redshift para su posterior análisis. Además, implantarás la supervisión y las alertas para garantizar la exactitud de los datos y la fiabilidad de las canalizaciones.
Este proyecto es una excelente oportunidad para adquirir conocimientos básicos sobre el procesamiento de datos en tiempo real y el manejo de tecnologías de big data, como Kafka para el streaming y Redshift para el almacenamiento de datos en la nube.
Recursos
Aquí tienes algunos recursos, como cursos y videotutoriales, que te orientarán paso a paso:
Vídeos de YouTube:
- Construir una canalización de datos en tiempo real con PySpark, Kafka y Redshift: Este vídeo de Darshir Parmar te guía a través de la construcción de una completa canalización de datos en tiempo real con PySpark, Kafka y Redshift. Incluye pasos para la ingesta, transformación y carga de datos. El vídeo también cubre las técnicas de supervisión y alerta para garantizar el rendimiento de las tuberías.
Cursos:
- Introducción a Apache Kafka: Este curso cubre los fundamentos de Apache Kafka, un componente crucial para el flujo de datos en tiempo real en este proyecto. Proporciona una visión general de la arquitectura de Kafka y de cómo implementarla en canalizaciones de datos.
- Conceptos de streaming: Este curso introduce los conceptos fundamentales del streaming de datos, incluyendo el procesamiento en tiempo real y las arquitecturas basadas en eventos. Es un recurso ideal para adquirir conocimientos básicos antes de construir canalizaciones en tiempo real.
Cuadro resumen de los proyectos de ingeniería de datos
Aquí tienes un resumen de los proyectos de ingeniería de datos anteriores para que tengas una referencia rápida de los distintos proyectos:
Proyecto |
Nivel |
Habilidades |
Herramientas |
Canalización de datos meteorológicos |
Principiante |
Python para escribir aplicaciones pipeline, conexiones API, limpieza de datos |
Python, PostgreSQL |
Canalización ETL con datos abiertos |
Principiante |
Lectura de datos CSV con Python y Pandas, limpieza de datos, carga de datos en BigQuery |
Python, BigQuery |
Análisis del transporte en Londres |
Principiante |
Trabajar con grandes conjuntos de datos, trabajar con almacenes de datos |
BigQuery |
Realizar una revisión del código |
Intermedio |
Revisión del código, Evaluación del código, corrección de errores en el código |
Habilidades de codificación |
Construir un canal de datos para el comercio minorista |
Intermedio |
Data pipelines, ETL |
Python, SQL |
Factores que influyen en el rendimiento de los alumnos |
Intermedio |
Consultas SQL para el análisis de datos |
SQL |
Limpiar un conjunto de datos con PySpark |
Avanzado |
Limpieza, transformación y formateo de datos, utilizando PySpark |
PySpark, Python |
Ingeniería de datos con dbt y BigQuery |
Avanzado |
Utilizar dbt para transformaciones basadas en SQL, transferir datos entre plataformas |
Dbt, BigQuery |
Airflow y Snowflake ETL utilizando almacenamiento S3 |
Avanzado |
Creación de canalizaciones ETL complejas utilizando DAGs de Airflow, Traslado de datos de Airflow a Snowflake |
Airflow, Snowflake, Tableau |
Proyecto Reddit ETL a AWS |
Avanzado |
Conexión a API, práctica de PostgreSQL para limpiar y transferir datos desde S3, AWS Glue, Athena y Redshift |
Airflow, PostgreSQL, AWS S3, AWS Glue, AWS Athena, Amazon Redshift |
Construir una canalización de datos en tiempo real con PySpark, Kafka y Redshift |
Avanzado |
Ingesta de datos en tiempo real, procesamiento, supervisión y carga de datos en un almacén de datos |
PySpark, Kafka, Amazon Redshift |
Conclusión
Este artículo presenta excelentes proyectos que te ayudarán a practicar tus conocimientos de ingeniería de datos.
Céntrate en comprender los conceptos fundamentales del funcionamiento de cada herramienta; esto te permitirá utilizar estos proyectos en tu búsqueda de empleo y explicarlos con éxito. Asegúrate de repasar cualquier concepto que te resulte difícil.
Además de crear una cartera de proyectos, obtener una certificación en ingeniería de datos puede ser una valiosa adición a tu currículum, ya que demuestra tu compromiso de completar los cursos pertinentes.
Conviértete en Ingeniero de Datos
Preguntas frecuentes
¿Qué habilidades necesito para empezar a trabajar en proyectos de ingeniería de datos?
Para los proyectos de nivel principiante, son útiles los conocimientos básicos de programación en Python o SQL y la comprensión de los fundamentos de los datos (como la limpieza y la transformación). Los proyectos intermedios y avanzados suelen requerir conocimientos de herramientas específicas, como Apache Airflow, Kafka, o almacenes de datos basados en la nube como BigQuery o Redshift.
¿Cómo pueden ayudar los proyectos de ingeniería de datos a construir mi cartera?
Completar proyectos de ingeniería de datos te permite demostrar tu capacidad para trabajar con datos a escala, construir canalizaciones sólidas y gestionar bases de datos. Los proyectos que abarcan flujos de trabajo de principio a fin (desde la ingestión de datos al análisis) demuestran habilidades prácticas a los posibles empleadores y son muy valiosos para un portafolio.
¿Son necesarias herramientas en la nube como AWS y Google BigQuery para los proyectos de ingeniería de datos?
Aunque no son estrictamente necesarias, las herramientas en la nube son muy relevantes para la ingeniería de datos moderna. Muchas empresas confían en las plataformas basadas en la nube por su escalabilidad y accesibilidad, por lo que aprender herramientas como AWS, Google BigQuery y Snowflake puede darte una ventaja y alinear tus habilidades con las necesidades del sector.
¿Cómo elijo el proyecto de ingeniería de datos adecuado a mi nivel de conocimientos?
Empieza por evaluar tus conocimientos y comodidad con las herramientas básicas. Para los principiantes, proyectos como la limpieza de datos o la construcción de una canalización ETL básica en Python son estupendos. Los proyectos intermedios pueden implicar bases de datos y consultas más complejas, mientras que los proyectos avanzados suelen integrar múltiples herramientas (por ejemplo, PySpark, Kafka, Redshift) para el procesamiento de datos en tiempo real o a gran escala.
Soy un científico de datos con experiencia en análisis espacial, aprendizaje automático y canalización de datos. He trabajado con GCP, Hadoop, Hive, Snowflake, Airflow y otros procesos de ciencia/ingeniería de datos.
¡Aprende más sobre ingeniería de datos con estos cursos!
curso
Data Warehousing Concepts
programa
Professional Data Engineer
blog
5 competencias esenciales en ingeniería de datos
blog
Las 21 mejores preguntas y respuestas de la entrevista sobre ingeniería de datos
blog
20 proyectos de análisis de datos para todos los niveles
blog
Cómo convertirse en ingeniero de datos en 2023: 5 pasos para el éxito profesional
blog