Comment construire un excellent portfolio en science des données (avec des exemples)
La science des données est l'un des domaines les plus passionnants et à la croissance la plus rapide de ces dix dernières années. Par conséquent, de nombreux programmes universitaires, bootcamps en science des données et cours en ligne sont disponibles pour tous ceux qui cherchent à percer dans ce domaine. Ces programmes constituent un excellent moyen d'acquérir les compétences requises, mais lorsqu'il s'agit de décrocher un poste, il est important de démontrer que vous possédez l'ensemble des compétences requises, car de nombreux employeurs recherchent une expérience pratique. Un portfolio efficace vous permettra de montrer, plutôt que de dire, à votre employeur potentiel que vous avez les compétences nécessaires pour réussir dans un poste en science des données.
Aujourd'hui, la plupart des data scientists ont un portefeuille, mais très peu d'entre eux sortent du lot. Si votre portfolio est trop générique, ne contient pas de projets intéressants ou manque d'explications, il peut être difficile pour vos lecteurs de le suivre et de rester intéressés. Pour que votre travail soit apprécié à sa juste valeur par votre public, voici quelques conseils simples pour transformer un bon portfolio en un portfolio exceptionnel.
Pourquoi investir dans un portefeuille de science des données ?
En tant qu'aspirant data scientist, il y a une raison évidente d'investir dans un portfolio : vous aider à décrocher un poste en démontrant vos compétences, avant même qu'un responsable du recrutement ne vous soumette à un test technique. Cependant, la recherche d'un nouveau rôle est une récompense externe. Il est essentiel de trouver une motivation interne pour que la satisfaction tirée de l'élaboration d'un portfolio dépende de vous, plutôt que d'un processus d'entretien sur lequel vous n'avez aucun contrôle. Cela donnera à votre portfolio un aspect plus authentique et vous motivera à présenter le meilleur travail possible.
Voici quelques raisons essentielles pour lesquelles la constitution d'un portefeuille de qualité vaut la peine que vous y consacriez du temps.
Atteindre le poste de vos rêves
Un portfolio est souvent un outil clé dans le processus de recrutement en science des données. Les responsables techniques du recrutement et les data scientists qui vous feront passer un entretien le consulteront afin d'évaluer vos compétences, votre expérience et vos centres d'intérêt, et pourront vous poser des questions à ce sujet.
Vous faire bénéficier d'une expérience pratique essentielle
Si l'apprentissage de la théorie d'un algorithme d'apprentissage automatique est une étape essentielle pour se lancer dans la science des données, le véritable test consiste à appliquer les compétences acquises à un cas d'utilisation. Le fait de travailler sur un projet dans son intégralité cimentera ce que vous avez appris et vous permettra d'en parler en toute confiance.
Faire connaissance avec la communauté des données
Les scientifiques des données aiment regarder ce que d'autres scientifiques des données ont fait. Il n'y a pas qu'une seule "bonne" façon de faire les choses et la promotion et la discussion de votre projet avec la communauté est un excellent moyen de trouver des solutions intéressantes à un problème.
Votre propre plaisir
C'est l'une des raisons les plus importantes de créer un portfolio ; après tout, la science des données est amusante ! Si vous aimez vraiment le projet sur lequel vous travaillez, cela vous motivera à faire de votre mieux, et les autres seront plus enclins à se sentir concernés par votre passion.
Quels sont les différents types de projets de portefeuille ?
Les projets de portefeuille ne concernent pas seulement les compétences techniques, comme la démonstration de votre capacité à coder. Les projets basés sur le contenu sont également un excellent moyen de montrer votre compréhension d'un sujet et de démontrer vos compétences en matière de communication, qui sont des qualités essentielles recherchées par les recruteurs. En fait, chaque projet de portefeuille technique devrait être accompagné d'une explication claire destinée à un public non technique. Vous trouverez ci-dessous quelques exemples des différents types de projets de portefeuille. Il est essentiel d'avoir une combinaison des deux dans votre portefeuille pour démontrer les compétences multiples que les postes en science des données requièrent souvent.
Projets basés sur le code
Les projets basés sur le code sont le type de projet de portefeuille le plus courant. En bref, il s'agit de reproduire des projets réels de science des données en prenant un ensemble de données et en résolvant un problème autour de celui-ci. Voici quelques exemples de projets basés sur le code :
- Récupération d'un ensemble de données et réalisation d'une analyse ou d'un entraînement à un modèle
- Construire un tableau de bord autour d'un ensemble de données ou d'un sujet spécifique
- Créer un site web ou une application avec laquelle quelqu'un peut interagir.
- Analyser des données sur un sujet en vogue, tel qu'une émission de télévision ou un article de presse populaire
Projets basés sur le contenu
Les projets basés sur le contenu sont généralement moins considérés comme des projets de portefeuille, mais ils sont extrêmement efficaces pour montrer vos compétences en matière de communication et de rédaction. Voici quelques exemples de projets basés sur le contenu
- Articles de blog et tutoriels de codage expliquant des concepts à d'autres scientifiques des données ou à des publics non techniques.
- Tutoriels vidéo présentant le fonctionnement d'un outil particulier
- Participer à un podcast - ou héberger le vôtre - où vous interviewez des scientifiques et des praticiens des données.
Constituez votre portefeuille de données
Présentez vos compétences et vos projets en quelques minutes.
7 façons de créer un portefeuille de données exceptionnel
1. Soyez authentique et poursuivez votre passion
Les meilleurs projets de portefeuille ne sont pas ceux qui utilisent les outils et les modèles les plus récents ou les plus complexes. Au contraire, les projets de portefeuille qui retiennent le plus l'attention sont ceux qui émanent d'une passion authentique. Si vous avez minutieusement récupéré un ensemble de données pour une tâche spécifique, écrit une histoire captivante ou créé quelque chose qui parle de votre passion au monde entier, les gens le reconnaîtront. Nick Singh, le coauteur de Acing the Data Science Interview, va encore plus loin dans cet épisode de DataFramed et suggère que la passion pour votre propre travail peut être si contagieuse qu'elle fera croire aux responsables du recrutement que vous êtes passionné par tout ce qui touche à la science des données, y compris leur entreprise et le rôle pour lequel vous postulez.
Les projets de portefeuille en science des données ne sont pas faciles à terminer. Vous vous heurterez à de nombreux murs, vous devrez jongler avec d'autres engagements, et terminer les derniers 10 % peut donner l'impression de recommencer tout le projet. Travailler sur un sujet qui vous passionne vous aidera à surmonter vos difficultés et vous permettra de créer un projet dont vous serez fier.
2. Racontez une histoire
Le fait de consacrer du temps et de la passion à un projet peut faire de vous un expert, mais il est important de veiller à ce que vos lecteurs puissent suivre votre parcours du début à la fin grâce au contenu que vous avez mis à leur disposition. N'oubliez pas que de nombreuses personnes consulteront votre portfolio sans connaître vos projets et sans avoir le temps de faire des recherches supplémentaires. C'est pourquoi une histoire concise mais captivante est essentielle dans un projet de portfolio. Que vous le publiiez sur la page readme d'un repo GitHub ou sous le titre d'un tableau de bord, assurez-vous d'expliquer clairement pourquoi le lecteur devrait s'intéresser à votre projet, ce qui vous motive à le réaliser et la question centrale à laquelle il répond. Cela permet également de capter l'attention des lecteurs et d'attirer leur attention sur votre carnet, votre modèle ou votre tableau de bord.
Une histoire convaincante est l'une des parties les plus importantes d'un portfolio, car elle montre votre empathie, votre curiosité et votre passion. En entraînant les lecteurs dans un voyage captivant, vos projets se démarqueront.
3. Mettez en avant vos compétences techniques, mais évitez les dérives.
Un bon projet de portefeuille démontre vos compétences techniques, mais cela ne signifie pas que vous devez appliquer toutes les compétences techniques que vous possédez. Par exemple, si vous avez passé des heures à développer un outil de scraping avancé, vous n'avez pas besoin d'élargir encore la portée de votre projet pour y intégrer des techniques de modélisation de pointe.
Une bonne approche consiste à centrer votre projet autour d'un domaine technique et à appliquer les principes fondamentaux à l'ensemble du projet. Si le but de votre projet est de démontrer vos capacités de nettoyage et de collecte de données, par exemple, il n'y a pas de problème si vous ne produisez pas la meilleure précision de prédiction possible en utilisant les modèles les plus avancés. Limiter la portée de votre projet est un excellent moyen de raconter une histoire concise, mais intéressante, qui démontre clairement les différents aspects de vos compétences techniques.
Une autre façon de montrer vos compétences techniques est de vous assurer que votre code est lisible et bien documenté. Veillez à ce que les carnets de notes comportent des titres et des explications et parcourez votre code en ajoutant des commentaires aux fonctions. Les personnes qui prennent le temps de consulter un carnet de notes noteront les commentaires et les noms de variables clairs.
4. Évitez les projets passe-partout
Les ensembles de données tels que le Titanic, le MNIST ou l'Iris doivent être évités dans la mesure du possible. Ce sont d'excellents ensembles de données pour apprendre et tester des modèles, mais ils sont largement utilisés par les data scientists débutants et les cours en ligne, à tel point que les recruteurs et les responsables de l'embauche peuvent supposer que vous êtes beaucoup plus avancé dans votre parcours de data scientist que vous ne l'êtes en réalité. De plus, ils ne vous aident pas à montrer votre passion pour la science des données et le type de projets qui vous intéressent réellement.
Il est risqué de présenter dans votre portfolio un projet couramment réalisé. De nombreuses personnes qui consultent votre portfolio peuvent avoir réalisé le projet elles-mêmes, ce qui pourrait les désintéresser, d'autant plus qu'il existe de nombreux tutoriels accessibles au public sur ces ensembles de données.
5. Ne négligez pas vos compétences non techniques
Une bonne narration n'est pas la seule "compétence non technique" que vous devez essayer de transmettre dans un projet de portfolio. Expliquer un problème complexe de manière simple et concise est une compétence importante pour tout lieu de travail, et qui doit être mise en valeur dans vos projets de portfolio. De plus, votre portfolio peut être l'occasion de contribuer à la communauté de la science des données et d'enseigner de nouvelles compétences à vos lecteurs. La curiosité est un autre attribut essentiel de la science des données, car il faut souvent fouiller dans des documents ou des articles de blog pour trouver des solutions à un problème spécifique, et c'est ce que les employeurs recherchent.
Générer des idées à partir de nouveaux ensembles de données et expliquer comment vous avez résolu les défis uniques que vous avez rencontrés dans votre projet de portefeuille sont des moyens fantastiques de démontrer votre curiosité et votre créativité, des compétences qui sont difficiles à acquérir.
6. Concevoir pour vos lecteurs
L'expérience utilisateur de vos lecteurs est aussi importante pour votre portfolio que pour n'importe quelle application ou site web. Il est essentiel de guider les lecteurs vers les informations pertinentes sans les submerger, tout en leur donnant la possibilité d'approfondir s'ils le souhaitent.
Ne lésinez pas sur la conception de votre projet : Une esthétique accrocheuse retiendra l'attention du lecteur et aidera votre portfolio à se démarquer. Un portfolio bien présenté peut même aider les lecteurs qui ne sont pas familiarisés avec la terminologie technique à suivre votre histoire. En outre, vous pouvez adapter le style de conception de votre projet en tant que modèle pour les projets futurs et créer des liens entre eux pour guider les utilisateurs de manière transparente vers d'autres éléments de votre contenu.
7. Commercialisez votre marque personnelle
Votre portefeuille n'est pas la seule information que les gens peuvent trouver sur vous. Une simple recherche sur Google fera probablement apparaître votre profil LinkedIn, votre site web, votre blog, GitHub et d'autres médias sociaux. Vous devez veiller à ce que votre image, votre style de rédaction et votre contenu soient cohérents sur l'ensemble de ces canaux et à ce qu'ils soient tous liés les uns aux autres. Veillez à inclure des liens vers votre portfolio dans votre signature de courriel et sur votre CV. Une marque personnelle forte vous aide à vous distinguer en tant qu'individu. Une bonne image de marque personnelle doit mettre en valeur vos compétences clés, vos réalisations et montrer aux gens ce que vous faites.
Exemples d'un excellent portfolio en science des données
Si vous souhaitez voir comment ces principes sont mis en pratique, voici une liste de portefeuilles et de projets de premier plan dans le domaine de la science des données, dont vous pourrez vous inspirer :
Nikolaos Christoforidis : La passion du sport
Le projet de Nikolaos est très codé dès le départ et montre clairement sa grande maîtrise de Pandas et de Scikit-learn. Il réussit également à créer un carnet de notes attrayant en travaillant sur un ensemble de données familier au grand public. Beaucoup d'entre nous sont passionnés par le sport et il existe aujourd'hui une multitude d'ensembles de données intéressants. Un projet sur un sport peut facilement inciter des personnes partageant les mêmes idées à le lire jusqu'au bout, en particulier s'il combine un ensemble de données et une question intéressants avec des visualisations sympas qui capturent des éléments du sport lui-même. C'est aussi un excellent moyen de faire en sorte que votre passion transparaisse clairement dans votre travail, ce qui peut même susciter l'intérêt de personnes qui ne suivent pas le sport en question !
Yan Holtz : Fantastic Design
Si vous êtes en quête d'inspiration pour la conception de votre portfolio, ne cherchez pas plus loin. Le design du portfolio de Yan respire à la fois la passion et l'élégance, en particulier l'animation en haut de la page qui réagit au pointeur de votre souris. Il est impossible de ne pas continuer à faire défiler les pages jusqu'à ce que vous arriviez à certains des projets eux-mêmes. Chaque projet possède une visualisation unique qui vous attire davantage, tandis qu'un clic vous permet d'accéder à une explication succincte.
Samuel Verevis : Personnalité
Bien que les ensembles de données sur le vin soient courants dans les portefeuilles, Samuel apporte quelque chose de complètement nouveau à l'histoire grâce à des titres de section humoristiques et à des visualisations exceptionnelles. Les graphiques combinent froideur et clarté, démontrant une compréhension claire de la manière de raconter une histoire et de maintenir l'intérêt du lecteur. C'est un excellent moyen de mettre en valeur l'authenticité, les compétences et la passion, même sur un ensemble de données qui est souvent utilisé dans d'autres projets de portefeuille.
Philipp Schöttler: Devenir viral
Les données sur le bitcoin et les projets de portefeuille attrayants : une combinaison parfaite. Phillipp est manifestement passionné et connaisseur du sujet, et il a été en mesure de produire une lecture approfondie et intéressante sur le bitcoin tout en mettant en évidence sa profonde compréhension des marchés financiers. Il s'agit d'une excellente démonstration de la façon de créer du contenu sur un sujet populaire tout en apportant de la valeur à un éventail de publics tels que d'autres scientifiques des données, des investisseurs, des passionnés de blockchain et des personnes cherchant à apprendre.
En savoir plus
S'il est vrai que regarder des exemples est une excellente source d'inspiration et que lire des guides comme celui-ci peut vous aider à vous orienter sur la bonne voie, la chose la plus importante à garder à l'esprit est que votre portfolio doit vous refléter, c'est-à-dire vos compétences, vos centres d'intérêt et votre personnalité. Après tout, il s'agit de votre parcours en science des données. Vous trouverez ci-dessous d'autres ressources pour vous guider tout au long de votre parcours :