Accéder au contenu principal

Les 11 meilleurs projets d'ingénierie des données pour un apprentissage pratique

Mettez en valeur vos compétences en matière d'ingénierie des données grâce à ces projets de portefeuille. Pratiquez et approfondissez votre compréhension de diverses technologies pour montrer vos atouts à des employeurs potentiels !
Actualisé 11 févr. 2025  · 25 min de lecture

L'ingénierie des données prend en charge le mouvement et la transformation des données. Alors que les entreprises s'appuient sur d'énormes quantités de données pour obtenir des informations et stimuler l'innovation, la demande d'ingénieurs en données ne cesse de croître.

Pour les professionnels des données, se lancer dans des projets d'ingénierie des données offre une multitude d'opportunités. Les défis pratiques aiguisent vos compétences techniques et constituent un portfolio tangible pour mettre en valeur vos connaissances et votre expérience.

Dans cet article, j'ai rassemblé une sélection de projets d'ingénierie des données conçus pour vous aider à améliorer vos compétences et à relever en toute confiance les défis du monde réel en matière de données !

Pourquoi travailler sur des projets d'ingénierie des données ?

Il est important d'acquérir une solide compréhension de l'ingénierie des données par le biais de la théorie et de la pratique. Si vous lisez cet article, vous le savez peut-être déjà, mais voici trois raisons spécifiques de vous plonger dans ces projets :

Renforcer les compétences techniques

Les projets d'ingénierie des données permettent d'acquérir une expérience pratique des technologies et des méthodologies. Vous développerez des compétences dans les langages de programmation, la gestion de bases de données, le traitement des big data et le cloud computing. Ces compétences techniques sont fondamentales pour les fonctions d'ingénierie des données et hautement transférables dans l'ensemble de l'industrie technologique.

Développement du portefeuille 

La création d'un portefeuille de projets d'ingénierie des données démontre vos capacités pratiques aux employeurs potentiels. Vous apportez des preuves tangibles de vos capacités en présentant des implémentations de pipelines de données, des conceptions d'entrepôts et des solutions d'optimisation. 

Un portfolio solide vous distingue sur le marché du travail et complète votre CV avec des réalisations concrètes.

Outils et technologies d'apprentissage 

Le domaine de l'ingénierie des données fait appel à un large éventail d'outils et de technologies. Travailler sur des projets vous expose à des cadres de traitement de données, à des outils de gestion de flux de travail et à des plates-formes de visualisation. 

Cette expérience pratique vous permet de vous tenir au courant des tendances du secteur et d'améliorer votre capacité d'adaptation dans un paysage technologique en constante évolution.

Projets d'ingénierie des données pour les débutants

Ces projets visent à présenter les principaux outils utilisés par les ingénieurs de données. Commencez ici si vous êtes novice en matière d'ingénierie des données ou si vous avez besoin d'une remise à niveau.

Projet 1 : Pipeline ETL avec données ouvertes (CSV à SQL)

Ce projet consiste à construire un pipeline ETL à partir d'un ensemble de données accessibles au public, telles que des données météorologiques ou des données sur les transports. Vous allez extraire les données d'un fichier CSV, les nettoyer et les transformer à l'aide de Python (avec une bibliothèque comme Pandas), et charger les données transformées dans Google BigQuery, un entrepôt de données basé sur le cloud.

Ce projet est excellent pour les débutants car il présente les concepts ETL de base - l'extraction, la transformation et le chargement des données - tout en donnant une exposition à des outils cloud comme BigQuery. 

Vous apprendrez également à interagir avec les entrepôts de données du cloud, une compétence essentielle de l'ingénierie des données moderne, à l'aide d'outils simples comme Python et l'API BigQuery. Pour une introduction, consultez le guide du débutant sur BigQuery.

En ce qui concerne les données, vous pouvez sélectionner un jeu de données disponible sur Kaggle ou data.gov.

Ressources

Voici quelques ressources, y compris des dépôts GitHub et des tutoriels, qui vous guident pas à pas :

Vidéos YouTube :

Dépôts GitHub :

  • Pipeline de données de bout en bout : Ce dépôt fait la démonstration d'un pipeline entièrement automatisé qui extrait des données de fichiers CSV, les transforme à l'aide de Python et de dbt, et les charge dans Google BigQuery.
  • Pipeline ETL avec Airflow et BigQuery : Ce projet présente un pipeline ETL orchestré avec Apache Airflow qui automatise l'extraction de données à partir de fichiers CSV, la transformation à l'aide de Python et le chargement dans BigQuery.

Cours :

  • ETL et ELT en Python : Apprenez-en plus sur les processus ETL en Python, en couvrant les concepts fondamentaux et les implémentations pratiques pour construire des pipelines de données.
  • Comprendre l'architecture moderne des données : Ce cours offre un aperçu complet de l'architecture de données moderne, en se concentrant sur les meilleures pratiques pour déplacer et structurer les données dans les systèmes basés sur le cloud comme BigQuery.

Compétences développées

  • Extraire des données d'un fichier CSV avec Python
  • Transformer et nettoyer des données avec Python
  • Chargement de données dans BigQuery avec Python et SQL

Projet 2 : Pipeline de données météorologiques avec Python et PostgreSQL

Ce projet initie les ingénieurs de données en herbe au processus fondamental de construction d'un pipeline de données, en se concentrant sur trois aspects essentiels de l'ingénierie des données : la collecte, le nettoyage et le stockage des données. 

À l'aide de Python, vous récupérerez les conditions et les prévisions météorologiques de divers endroits à partir d'API météorologiques publiques facilement accessibles. Une fois les données météorologiques collectées, vous traiterez les données brutes, ce qui peut impliquer la conversion des unités de température, le traitement des valeurs manquantes ou la normalisation des noms de lieux. Enfin, vous stockerez les données nettoyées dans une base de données PostgreSQL.

Ce projet est un excellent point de départ pour les nouveaux ingénieurs en données. Il couvre les principes fondamentaux de la construction d'un pipeline de données à l'aide d'outils largement utilisés dans l'industrie.

Ressources

Voici quelques ressources précieuses, notamment des dépôts GitHub et des tutoriels, qui vous guident pas à pas dans la réalisation de ce projet :

Vidéos YouTube :

Dépôts GitHub :

Cours :

  • Création de bases de données PostgreSQL : Ce cours propose un guide complet de PostgreSQL, couvrant les compétences essentielles pour la création, la gestion et l'optimisation des bases de données - une étape critique dans le pipeline des données météorologiques.
  • Ingénieur de données en Python : Ce cursus de compétences couvre les compétences fondamentales en ingénierie des données, y compris la collecte, la transformation et le stockage des données, offrant un départ solide pour la construction de pipelines en Python.

Compétences développées

  • Utiliser Python pour écrire des applications de pipeline de données
  • Collecte de données à partir de sources externes (API)
  • Nettoyer les données pour les rendre cohérentes et compréhensibles
  • Mise en place de bases de données et stockage et organisation des données dans ces bases.

Projet 3 : Analyse des transports à Londres

Ce projet constitue un excellent point de départ pour les ingénieurs en données en herbe. Il vous initie à l'utilisation de données réelles provenant d'un grand réseau de transport public qui gère plus de 1,5 million de trajets quotidiens. 

La force du projet réside dans l'utilisation de solutions d'entrepôt de données standard du secteur, comme Snowflake, Amazon Redshift, Google BigQuery ou Databricks. Ces plateformes sont essentielles à l'ingénierie des données moderne, car elles vous permettent de traiter et d'analyser efficacement de vastes ensembles de données. 

En analysant les tendances en matière de transport, les méthodes populaires et les modèles d'utilisation, vous apprendrez à extraire des informations significatives à partir de grands ensembles de données, ce qui constitue une compétence essentielle en matière d'ingénierie des données.

Ressources

Voici quelques ressources, y compris des projets guidés et des cours, qui vous guident pas à pas :

Projets guidés :

  • Explorer le réseau de transport londonien : Ce projet guidé vous apprend à analyser les données des transports publics londoniens, en vous aidant à explorer les tendances, les itinéraires populaires et les modes d'utilisation. Vous acquerrez de l'expérience dans l'analyse de données à grande échelle en utilisant des données réelles provenant d'un grand réseau de transport public.

Cours :

  • Concepts d'entreposage de données : Ce cours couvre les principes essentiels de l'entreposage de données, y compris les architectures et les cas d'utilisation pour des plateformes telles que Snowflake, Redshift et BigQuery. Il s'agit d'une excellente base pour la mise en œuvre de solutions de stockage et de traitement de données à grande échelle.

Compétences développées

  • Comprendre le contexte de l'écriture des requêtes par une meilleure compréhension des données.
  • Travailler avec de grands ensembles de données.
  • Comprendre les concepts de big data.
  • Travailler avec des entrepôts de données et des outils de big data, comme Snowflake, Redshift, BigQuery ou Databricks.

Devenez ingénieur en données

Devenez un ingénieur de données grâce à l'apprentissage avancé de Python
Commencez à apprendre gratuitement

Projets intermédiaires d'ingénierie des données

Ces projets mettent l'accent sur des compétences telles que l'amélioration de la programmation et la combinaison de différentes plates-formes de données. Ces compétences techniques sont essentielles pour vous permettre de contribuer à une pile technologique existante et de travailler au sein d'une équipe plus importante.

Projet 4 : Effectuer un examen du code

Ce projet consiste à réviser le code d'un autre ingénieur en données. Même s'il ne s'agit pas d'un projet aussi concret que d'autres, le fait de pouvoir réviser le code d'autres personnes est un élément important de l'évolution d'un ingénieur en données. 

La lecture et la révision du code sont des compétences tout aussi importantes que l'écriture du code. Après avoir compris les concepts et pratiques fondamentaux de l'ingénierie des données, vous pouvez les appliquer à la révision du code d'autrui pour vous assurer qu'il respecte les meilleures pratiques et qu'il réduit les bogues potentiels dans le code.

Ressources

Voici quelques ressources précieuses, y compris des projets et des articles, qui vous guident pas à pas :

Projets guidés :

  • Effectuer un examen du code : Ce projet guidé offre une expérience pratique de l'examen du code, en simulant le processus d'examen du code comme si vous étiez un professionnel senior des données. C'est un excellent moyen de s'entraîner à identifier les bogues potentiels et de s'assurer que les meilleures pratiques sont respectées.

Articles :

  • Comment procéder à un examen du code : Cette ressource fournit des recommandations sur la manière de mener efficacement des revues de code, sur la base d'une vaste expérience, et couvre divers aspects du processus de revue.

Compétences développées

  • Lire et évaluer le code écrit par d'autres ingénieurs de données
  • Trouver des bogues et des erreurs de logique lors de l'examen du code
  • Fournir un retour d'information sur le code de manière claire et utile

Projet 5 : Construire un pipeline de données sur le commerce de détail

Dans ce projet, vous construirez un pipeline ETL complet avec les données de vente au détail de Walmart. Vous récupérerez des données à partir de différentes sources, notamment des bases de données SQL et des fichiers Parquet, vous appliquerez des techniques de transformation pour préparer et nettoyer les données, et enfin vous les chargerez dans un format facilement accessible.

Ce projet est excellent pour acquérir des connaissances fondamentales et avancées en ingénierie des données, car il couvre des compétences essentielles telles que l'extraction de données à partir de formats multiples, la transformation de données pour une analyse pertinente et le chargement de données pour un stockage et un accès efficaces. Il permet de renforcer des concepts tels que la gestion de diverses sources de données, l'optimisation des flux de données et le maintien de pipelines évolutifs.

Ressources

Voici quelques ressources précieuses, y compris des projets guidés et des cours, qui vous guident pas à pas :

Projets guidés :

  • Construire un pipeline de données sur le commerce de détail : Ce projet guidé vous permet de construire un pipeline de données de vente au détail en utilisant les données de vente au détail de Walmart. Vous apprendrez à extraire des données de bases de données SQL et de fichiers Parquet, à les transformer pour les analyser et à les charger dans un format accessible.

Cours :

  • Conception de la base de données : Une solide compréhension de la conception des bases de données est essentielle lorsque vous travaillez sur des pipelines de données. Ce cours couvre les bases de la conception et de la structuration des bases de données, ce qui est utile pour gérer diverses sources de données et optimiser le stockage.

Compétences développées

  • Concevoir des pipelines de données pour des cas d'utilisation réels.
  • Extraction de données à partir de sources multiples et de formats différents.
  • Nettoyer et transformer les données provenant de différents formats afin d'en améliorer la cohérence et la qualité.
  • Chargement de ces données dans un format facilement accessible.

Projet 6 : Facteurs influençant la performance des étudiants avec SQL

Dans ce projet, vous analyserez une base de données complète axée sur divers facteurs ayant une incidence sur la réussite des étudiants, tels que les habitudes d'étude, les habitudes de sommeil et l'implication des parents. En élaborant des requêtes SQL, vous étudierez les relations entre ces facteurs et les résultats des examens, en explorant des questions telles que l'effet des activités extrascolaires et du sommeil sur les performances scolaires.

Ce projet renforce les compétences en ingénierie des données en améliorant votre capacité à manipuler et à interroger des bases de données de manière efficace. 

Vous développerez des compétences en matière d'analyse et d'interprétation des données, et vous tirerez des enseignements d'ensembles de données complexes, ce qui est essentiel pour prendre des décisions fondées sur des données dans le domaine de l'éducation et au-delà.

Ressources

Voici quelques ressources, y compris des projets guidés et des cours, qui vous guident pas à pas :

Projets guidés :

  • Les facteurs qui alimentent la performance des élèves : Ce projet guidé vous permet d'explorer l'influence de différents facteurs sur la réussite des étudiants en analysant une base de données complète. Vous utiliserez le langage SQL pour étudier les relations entre les habitudes d'étude, les habitudes de sommeil et les résultats scolaires, ce qui vous permettra d'acquérir de l'expérience en matière d'analyse éducative fondée sur des données.

Cours :

  • Manipulation de données en SQL : Une base solide en manipulation de données SQL est essentielle pour ce projet. Ce cours couvre les techniques SQL pour l'extraction, la transformation et l'analyse des données dans les bases de données relationnelles, vous permettant ainsi d'acquérir les compétences nécessaires pour traiter des ensembles de données complexes.

Compétences développées

  • Rédiger et optimiser des requêtes SQL pour récupérer et manipuler des données de manière efficace.
  • Analyser des ensembles de données complexes pour identifier les tendances et les relations.
  • Formuler des hypothèses et interpréter les résultats à partir des données.

Projets avancés d'ingénierie des données

L'une des caractéristiques d'un ingénieur en données avancé est sa capacité à créer des pipelines capables de traiter une multitude de types de données dans différentes technologies. Ces projets visent à développer vos compétences en combinant plusieurs outils avancés d'ingénierie des données pour créer des systèmes de traitement des données évolutifs.

Projet 7 : Nettoyer un jeu de données avec Pyspark

En utilisant un outil avancé comme PySpark, vous pouvez construire des pipelines qui tirent parti des capacités d'Apache Spark. 

Avant d'essayer de construire un projet comme celui-ci, il est important de suivre un cours d'introduction pour comprendre les principes fondamentaux de PySpark. Ces connaissances fondamentales vous permettront d'utiliser pleinement cet outil pour une extraction, une transformation et un chargement efficaces des données.

Ressources

Voici quelques ressources précieuses, y compris des projets guidés, des cours et des tutoriels, qui vous guident pas à pas :

Projets guidés :

  • Nettoyage d'un ensemble d'ordres avec PySpark : Ce projet guidé vous accompagne dans le nettoyage d'un ensemble de données de commandes de commerce électronique à l'aide de Spark, vous aidant à comprendre comment extraire, transformer et charger des données de manière évolutive avec Apache Spark.

Cours :

  • Introduction à PySpark : Ce cours propose une introduction approfondie à PySpark, couvrant les concepts et techniques essentiels pour travailler efficacement avec de grands ensembles de données dans Spark. C'est un point de départ idéal pour construire une base solide dans PySpark.

Tutoriels :

  • Tutoriel PySpark : Premiers pas avec PySpark: Ce tutoriel présente les composants de base de PySpark, en vous guidant à travers la configuration et les opérations fondamentales afin que vous puissiez commencer en toute confiance à construire des pipelines de données avec PySpark.

Compétences développées

  • Élargir son expérience avec PySpark
  • Nettoyage et transformation des données pour les parties prenantes
  • Acquisition de grandes quantités de données
  • Approfondissement de la connaissance de Python dans les processus ETL

Projet 8 : Modélisation des données avec dbt et BigQuery

Un outil moderne, populaire et puissant pour les ingénieurs de données est dbt (Data Build Tool), qui permet aux ingénieurs de données de suivre une approche de développement de logiciels. Il offre un contrôle de version intuitif, des tests, une génération de code boilerplate, un lignage et des environnements. dbt peut être associé à BigQuery ou à d'autres entrepôts de données dans le cloud pour stocker et gérer vos ensembles de données. 

Ce projet vous permettra de créer des pipelines dans dbt, de générer des vues et de lier les données finales à BigQuery.

Ressources

Voici quelques ressources précieuses, y compris des cours et des tutoriels vidéo, qui vous guideront pas à pas :

Vidéos YouTube :

  • Ingénierie des données moderne de bout en bout avec dbt : Dans cette vidéo, CodeWithYu propose une démonstration complète de la configuration et de l'utilisation de dbt avec BigQuery, couvrant les étapes de construction de pipelines de données et de génération de vues. Il s'agit d'un guide utile pour les débutants qui apprennent à combiner dbt et BigQuery dans un flux de travail d'ingénierie des données.

Cours :

  • Introduction à dbt : Ce cours présente les principes fondamentaux de dbt, couvrant des concepts de base tels que les flux de travail Git, les tests et la gestion de l'environnement. Il s'agit d'un excellent point de départ pour utiliser efficacement le dbt dans les projets d'ingénierie des données.

Compétences développées

  • En savoir plus sur la dbt
  • En savoir plus sur BigQuery
  • Comprendre comment créer des transformations basées sur SQL
  • Utiliser les meilleures pratiques de l'ingénierie logicielle dans l'ingénierie des données (contrôle des versions, tests et documentation).

Projet 9 : ETL Airflow et Snowflake utilisant le stockage S3 et BI dans Tableau

Dans le cadre de ce projet, nous allons utiliser Airflow pour collecter des données à l'aide d'une API et les transférer dans Snowflake à l'aide d'un seau Amazon S3. L'objectif est de gérer l'ETL dans Airflow et le stockage analytique dans Snowflake. 

C'est un excellent projet car il se connecte à de multiples sources de données via plusieurs systèmes de stockage dans le cloud, le tout orchestré avec Airflow. Ce projet est très complet car il comporte de nombreux éléments mobiles et ressemble à une architecture de données réelle. Ce projet aborde également l'intelligence économique (BI) en ajoutant des visualisations dans Tableau.

Ressources

Voici quelques ressources précieuses, y compris des cours et des tutoriels vidéo, qui vous guideront pas à pas :

Vidéos YouTube :

  • Pipeline de données avec Airflow, S3 et Snowflake : Dans cette vidéo, Seattle Data Guy montre comment utiliser Airflow pour extraire des données de l'API PredictIt, les charger dans Amazon S3, effectuer des transformations Snowflake et créer des visualisations Tableau. Ce guide complet est idéal pour comprendre l'intégration de plusieurs outils dans un pipeline de données.

Cours :

  • Introduction à Apache Airflow en Python : Ce cours fournit une vue d'ensemble d'Apache Airflow, couvrant les concepts essentiels tels que les DAG, les opérateurs et les dépendances de tâches. C'est une excellente base pour comprendre comment structurer et gérer les flux de travail dans Airflow.
  • Introduction à Snowflake : Ce cours présente Snowflake, une puissante solution d'entreposage de données. Il couvre la gestion du stockage des données, l'interrogation et l'optimisation. Il est parfait pour acquérir des connaissances fondamentales avant de travailler avec Snowflake dans les pipelines de données.
  • Visualisation des données avec Tableau : Ce cours couvre les compétences essentielles de Tableau pour la visualisation des données, vous permettant de transformer les données en visuels perspicaces - une étape essentielle pour interpréter les résultats des pipelines de données.

Compétences développées

  • Entraînez-vous à créer des DAGs dans Airflow
  • Entraînez-vous à vous connecter à une API en Python
  • Entraînez-vous à stocker des données dans des buckets Amazon S3
  • Déplacer des données d'Amazon vers Snowflake à des fins d'analyse
  • Visualisation simple des données dans Tableau
  • Création d'une plateforme de données complète, de bout en bout

Projet 10 : Reddit ETL dans AWS en utilisant Airflow

Ce projet s'attaque à un pipeline de données complexe comportant plusieurs étapes et utilisant des outils de traitement de données avancés dans l'écosystème AWS. 

Commencez par configurer votre Apache Airflow pour qu'il récupère les données de Reddit et les transforme à l'aide de SQL. Ensuite, vous connecterez vos données à AWS en les plaçant dans un seau S3, où nous utiliserons AWS Glue pour effectuer un peu plus de formatage. Ensuite, vous pouvez utiliser Athena pour tester les requêtes avant de stocker les données dans Redshift pour l'entreposage de données à plus long terme et les requêtes analytiques.

Ressources

Voici quelques ressources, y compris des cours et des tutoriels vidéo, qui vous guident pas à pas :

Vidéos YouTube :

  • Projet d'ingénierie du pipeline de données de Reddit : CodeWithYu fait la démonstration d'un pipeline de données Reddit complet dans cette vidéo, y compris l'extraction de données avec Airflow, les transformations avec PostgreSQL et l'intégration avec les services AWS tels que S3, Glue, Athena et Redshift. Cette présentation est un guide utile pour aborder les différentes étapes d'un pipeline de données complexe.

Cours :

  • Introduction à AWS : Ce cours fournit une base solide à AWS, couvrant les concepts et les outils essentiels. La compréhension des bases des services AWS tels que S3, Glue, Athena et Redshift sera cruciale pour mener à bien ce projet.
  • Introduction à Redshift : Ce cours propose une introduction complète à Amazon Redshift, en mettant l'accent sur les concepts d'entreposage de données, l'architecture Redshift et les compétences essentielles pour la gestion et l'interrogation de grands ensembles de données. Il s'agit d'une excellente ressource pour approfondir votre compréhension de Redshift au sein des pipelines AWS.

Compétences développées

  • Introduire les données du site web dans Airflow
  • Utiliser PostgreSQL pour transformer les données
  • Connectez Airflow à AWS pour transférer les données dans des buckets S3.
  • Utilisez AWS Glue pour l'ETL
  • Utilisez AWS Athena pour des requêtes simples
  • Transférez des données de S3 vers Amazon Redshift pour l'entreposage de données

Projet 11 : Construire un pipeline de données en temps réel avec PySpark, Kafka et Redshift

Dans ce projet, vous créerez un pipeline de données robuste et en temps réel en utilisant PySpark, Apache Kafka et Amazon Redshift pour gérer des volumes importants d'ingestion, de traitement et de stockage de données. 

Le pipeline capturera des données de diverses sources en temps réel, les traitera et les transformera à l'aide de PySpark, et chargera les données transformées dans Redshift pour une analyse plus approfondie. En outre, vous mettrez en place un système de surveillance et d'alerte pour garantir l'exactitude des données et la fiabilité du pipeline.

Ce projet est une excellente occasion d'acquérir des compétences fondamentales en matière de traitement des données en temps réel et de manipulation des technologies big data, telles que Kafka pour le streaming et Redshift pour l'entreposage de données dans le cloud.

Ressources

Voici quelques ressources, y compris des cours et des tutoriels vidéo, qui vous guident pas à pas :

Vidéos YouTube :

  • Construire un pipeline de données en temps réel avec PySpark, Kafka et Redshift : Cette vidéo de Darshir Parmar vous guide dans la construction d'un pipeline de données en temps réel complet avec PySpark, Kafka et Redshift. Il comprend des étapes d'ingestion, de transformation et de chargement des données. La vidéo aborde également les techniques de surveillance et d'alerte pour garantir la performance du pipeline.

Cours :

  • Introduction à Apache Kafka : Ce cours couvre les bases d'Apache Kafka, un composant crucial pour le streaming de données en temps réel dans ce projet. Il donne un aperçu de l'architecture de Kafka et de sa mise en œuvre dans les pipelines de données.
  • Concepts de diffusion en continu : Ce cours présente les concepts fondamentaux du flux de données, y compris le traitement en temps réel et les architectures basées sur les événements. Il s'agit d'une ressource idéale pour acquérir des connaissances de base avant de créer des pipelines en temps réel.

Tableau récapitulatif des projets d'ingénierie des données

Voici un résumé des projets d'ingénierie des données ci-dessus pour vous donner une référence rapide aux différents projets :

Projet

Niveau

Compétences

Outils

Pipeline de données météorologiques

Débutant

Python pour écrire des applications de pipeline, des connexions API, le nettoyage des données.

Python, PostgreSQL

Pipeline ETL avec données ouvertes

Débutant

Lecture de données CSV avec Python et Pandas, nettoyage des données, chargement des données dans BigQuery.

Python, BigQuery

Analyse des transports à Londres

Débutant

Travailler avec de grands ensembles de données, travailler avec des entrepôts de données

BigQuery

Effectuer un examen du code

Intermédiaire

Examen du code, évaluation du code, correction des bogues dans le code

Compétences en matière de codage

Construire un pipeline de données sur le commerce de détail

Intermédiaire

Pipelines de données, ETL

Python, SQL

Facteurs influençant la performance des élèves

Intermédiaire

Requêtes SQL pour l'analyse des données

SQL

Nettoyer un jeu de données avec PySpark

Avancé

Nettoyage, transformation et formatage des données à l'aide de PySpark

PySpark, Python

Ingénierie des données avec dbt et BigQuery

Avancé

Utilisation de dbt pour les transformations basées sur SQL, transfert de données entre plateformes

Dbt, BigQuery

ETL Airflow et Snowflake utilisant le stockage S3

Avancé

Créer des pipelines ETL complexes en utilisant les DAG d'Airflow, déplacer des données d'Airflow vers Snowflake.

Airflow, Snowflake, Tableau

Projet Reddit ETL vers AWS

Avancé

Connexion aux API, pratique de PostgreSQL pour le nettoyage et le transfert de données depuis S3, AWS Glue, Athena et Redshift

Airflow, PostgreSQL, AWS S3, AWS Glue, AWS Athena, Amazon Redshift

Construire un pipeline de données en temps réel avec PySpark, Kafka et Redshift

Avancé

L'ingestion, le traitement, la surveillance et le chargement de données en temps réel dans un entrepôt de données.

PySpark, Kafka, Amazon Redshift

Conclusion

Cet article présente d'excellents projets pour vous aider à mettre en pratique vos compétences en matière d'ingénierie des données. 

Concentrez-vous sur la compréhension des concepts fondamentaux qui sous-tendent le fonctionnement de chaque outil ; cela vous permettra d'utiliser ces projets dans votre recherche d'emploi et de les expliquer avec succès. Veillez à revoir les concepts qui vous semblent difficiles.

Outre la constitution d'un portefeuille de projets, l'obtention d'une certification en ingénierie des données peut constituer un ajout précieux à votre CV, car elle démontre votre engagement à suivre des cours pertinents !

Devenez ingénieur en données

Faites la preuve de vos compétences en tant qu'ingénieur en données prêt à l'emploi.

FAQ

Quelles sont les compétences dont j'ai besoin pour commencer à travailler sur des projets d'ingénierie des données ?

Pour les projets de niveau débutant, des connaissances de base en programmation en Python ou SQL et une compréhension des bases des données (comme le nettoyage et la transformation) sont utiles. Les projets intermédiaires et avancés nécessitent souvent la connaissance d'outils spécifiques, comme Apache Airflow, Kafka, ou des entrepôts de données basés sur le cloud comme BigQuery ou Redshift.

Comment les projets d'ingénierie des données peuvent-ils contribuer à la constitution de mon portefeuille ?

La réalisation de projets d'ingénierie des données vous permet de démontrer votre capacité à travailler avec des données à grande échelle, à construire des pipelines robustes et à gérer des bases de données. Les projets qui couvrent les flux de travail de bout en bout (de l'ingestion des données à l'analyse) démontrent des compétences pratiques aux employeurs potentiels et sont très utiles pour un portefeuille.

Les outils cloud comme AWS et Google BigQuery sont-ils nécessaires pour les projets d'ingénierie des données ?

Bien qu'ils ne soient pas strictement nécessaires, les outils cloud sont très pertinents pour l'ingénierie des données moderne. De nombreuses entreprises s'appuient sur des plateformes basées sur le cloud pour l'évolutivité et l'accessibilité, de sorte que l'apprentissage d'outils tels que AWS, Google BigQuery et Snowflake peut vous donner un avantage et aligner vos compétences sur les besoins de l'industrie.

Comment choisir le projet d'ingénierie des données qui correspond à mon niveau de compétences ?

Commencez par évaluer vos connaissances et votre aisance avec les outils de base. Pour les débutants, des projets comme le nettoyage de données ou la construction d'un pipeline ETL de base en Python sont parfaits. Les projets intermédiaires peuvent impliquer des bases de données et des requêtes plus complexes, tandis que les projets avancés intègrent souvent plusieurs outils (par exemple, PySpark, Kafka, Redshift) pour le traitement des données en temps réel ou à grande échelle.


Tim Lu's photo
Author
Tim Lu
LinkedIn

Je suis un data scientist avec de l'expérience dans l'analyse spatiale, l'apprentissage automatique et les pipelines de données. J'ai travaillé avec GCP, Hadoop, Hive, Snowflake, Airflow et d'autres processus d'ingénierie et de science des données.

Sujets

Apprenez-en plus sur l'ingénierie des données avec ces cours !

Certification disponible

cours

Introduction à l'ingénierie des données

4 hr
114.3K
Découvrez le monde de l'ingénierie des données dans ce cours de courte durée, couvrant des outils et des sujets tels que l'ETL et le cloud computing.
Afficher les détailsRight Arrow
Commencer le cours
Voir plusRight Arrow