Concours Kaggle : Le guide complet
Table des matières
- Que sont les concours Kaggle ?
- La participation aux concours Kaggle en vaut-elle la peine ?
- Quand devriez-vous participer à un concours de science des données ?
- Qu'est-ce qu'un concours DataCamp ?
- Comment trouver la bonne compétition Kaggle pour votre niveau ? (du débutant aux compétences avancées)
- Conseils pour la compétition Kaggle
- Choisir un langage de programmation
- Participez aux concours étiquetés avec "Getting Started" (débuter)
- N'utilisez pas exclusivement Kaggle
- Mettre l'accent sur l'apprentissage
- Étudier d'autres carnets publics
- Lire le règlement du concours
- Partagez vos solutions
- Suivez ce cours dans DataCamp
- Que sont les classements Kaggle ?
- Médailles Kaggle
- Médailles de la compétition
- Médailles de l'ensemble de données
- Médailles du carnet de notes
- Médailles de discussion
- Niveaux de performance
- Novice
- Contributeur
- Expert
- Maître
- Grandmaster
- Combien de temps faut-il pour passer du statut de contributeur à celui d'expert ?
- Médailles Kaggle
- Conseils de classement Kaggle
- Conclusion
Que sont les concours Kaggle ?
Maintenant que nous avons abordé les bases de Kaggle comme les notebooks et les ensembles de données, nous pouvons aborder les questions les plus fréquemment posées sur les concours Kaggle : Qui les organise ? Puis-je concourir ? Pourquoi devrais-je participer à la compétition ?
Cette dernière question est essentielle. Les concours Kaggle sont basés sur des tâches d'apprentissage automatique stimulantes organisées par Kaggle lui-même ou par d'autres grandes entreprises, organisations et universités. Dans ces concours, les utilisateurs rivalisent avec d'autres scientifiques des données sur la plateforme pour soumettre des prédictions plus précises qui sont faites par les modèles d'apprentissage automatique qu'ils construisent pendant le concours. Après la soumission, une note reflétant le fonctionnement du modèle est automatiquement calculée.
On pense souvent à tort qu'il est nécessaire de suivre des cours de probabilités et de statistiques ou d'avoir une connaissance approfondie de certaines bibliothèques d'apprentissage automatique avant de participer à ces concours. La vérité est que vous pouvez, et devriez, participer aux concours Kaggle quel que soit votre niveau. Les concours ne sont pas réservés aux experts, et tout le monde peut en tirer une expérience précieuse et même s'en servir pour se constituer un portefeuille de science des données.
La participation aux concours Kaggle en vaut-elle la peine ?
- Quelle que soit votre expérience en science des données, vous pouvez améliorer vos compétences en participant à des concours dans ce domaine en croissance et en développement constants. Ces concours de science des données vous mettront au défi dans la limite de vos capacités. Plus vous consacrerez de temps et d'efforts aux concours de science des données Kaggle ou DataCamp, plus vous serez rapidement à l'aise avec les bibliothèques et les langages de programmation utilisés.
- Vous gagnerez votre place parmi les data scientists de tous niveaux dans le monde entier.
- Vous aurez l'occasion d'examiner les solutions gagnantes et d'avoir accès à différentes approches d'un même problème. Il vous sera ainsi plus facile d'analyser les tâches difficiles sous différents angles.
- Vous recevrez des ensembles de données de haute qualité. Cela vous permettra de vous concentrer entièrement sur la solution, car vous n'aurez pas à vous préoccuper du nettoyage des données, de la collecte de données connexes ou de la création d'un ensemble de données cohérent et bien étiqueté.
- Vous aurez l'occasion de participer à une discussion technique avec les gagnants des concours et d'autres scientifiques de données de haut niveau. Cela vous permettra d'élargir votre réseau.
- Travailler sur des problèmes réels vous motivera et vous donnera un aperçu du travail quotidien et des responsabilités d'un data scientist.
- L'incitation financière est évidente.
Participer à des compétitions Kaggle ou DataCamp en vaut vraiment la peine. Quel que soit votre niveau d'expertise, vous trouverez certainement au moins un des avantages énumérés qui vous concerne. Il existe une grande variété de concours en science des données, et de nouveaux concours sont publiés régulièrement. Même s'ils ne vous intéressent pas dans l'immédiat, il est recommandé de suivre les concours qui sont publiés, car au moins l'un d'entre eux vous concernera probablement à un moment ou à un autre.
Quand devriez-vous participer à un concours de science des données ?
Avant de participer à un concours, tenez compte des trois critères suivants :
- Le temps et le travail consacrés à ce concours seront-ils équilibrés par rapport à l'amélioration que vous pouvez en retirer ?
- Quel est l'intérêt financier d'une victoire et cela vaut-il la peine d'y consacrer du temps ?
- Le travail de compétition, la recherche et la contribution vous satisferont-ils en tant que professionnel des données ?
Certains scientifiques des données sont généralement heureux de participer à n'importe quel concours dans le seul but d'élargir leur réseau et leur pratique. Cependant, la plupart des gens doivent évaluer les critères ci-dessus afin de décider si un concours en vaut la peine ou non. Vous devrez également trouver vos propres critères et les prendre en compte avant de vous inscrire à un concours, en gardant toujours à l'esprit que plus vous participez à des concours, plus vous pouvez tirer d'avantages et d'expériences d'apprentissage de Kaggle.
Qu'est-ce qu'un concours DataCamp ?
Les compétitions DataCamp et les compétitions Kaggle présentent de nombreuses similitudes. Tout comme dans Kaggle, dans DataCamp vous avez la possibilité d'examiner les notebooks partagés publiquement, et les compétitions de DataCamp sont également dotées de prix. Si vous vous classez dans les concours, vous gagnez un abonnement premium d'un an à DataCamp et vous pouvez également remporter des prix en espèces. DataCamp dispose également d'un environnement très similaire à Kaggle dans lequel vous pourrez vous réunir avec d'autres data scientists de tous niveaux grâce aux pages de discussion.
Cependant, il existe quelques différences importantes entre les compétitions Kaggle et DataCamp. D'une part, les compétitions Kaggle se concentrent davantage sur l'apprentissage automatique, tandis que DataCamp s'attache à tester vos compétences en matière d'analyse, de narration et de visualisation dans un contexte plus large. En revanche, vous avez plus de chances de remporter les concours DataCamp, car il s'agit d'une plateforme en plein essor avec relativement peu de participants.
En tout état de cause, vous ne devez jamais participer aux concours dans le seul but de gagner. Vous en tirerez bien plus si vous vous concentrez plutôt sur la progression, et à cet égard, DataCamp offre également de grandes possibilités d'amélioration que vous pouvez facilement mettre à profit.
Comment trouver la bonne compétition Kaggle pour votre niveau ? (du débutant aux compétences avancées)
Kaggle vous permet de filtrer les concours par titre ou par mot-clé, ce qui vous permet de trouver facilement ceux qui vous intéressent le plus. Il vous suffit de saisir le titre ou les mots clés dans la barre de recherche.
Kaggle
Figure 5.1 : Recherche de concours
Vous pouvez également les filtrer en fonction des critères de concurrence.
Figure 5.2 : Filtrage de la concurrence
Outre les titres, les mots-clés et les balises, il existe trois autres filtres principaux : "Statut", "Prix et récompenses" et "Catégories".
Statut :
- Monétaire : Les concours portant cette mention sont généralement organisés par de grandes entreprises bien connues. Si vous vous classez dans ces concours, vous gagnerez un prix en espèces. Les prix les plus bas se situent entre 5 000 et 10 000 dollars. Les concours dont les prix se situent entre 50 000 et 100 000 dollars sont les plus courants. Les prix les plus importants vont jusqu'à 1 million de dollars.
- Médailles : Vous recevez des médailles Kaggle en guise de récompense, en fonction du score que vous atteignez dans la compétition. Grâce à ces médailles, votre classement augmente. Le classement Kaggle est expliqué en détail dans la section 6.
- Autre : Ces concours récompensent les participants par des articles Kaggle, tels que des t-shirts ou des autocollants.
Catégories :
- En vedette : Ces concours sont généralement publiés par de grandes entreprises, des organisations et même des gouvernements. Leurs prix en espèces sont beaucoup plus importants que ceux offerts dans d'autres catégories.
- Recherche : Il s'agit de concours sur le thème de la recherche. Il n'y a pas ou peu de prix à la clé.
- Pour commencer : Ceux-ci ne comprennent pas de récompenses. Il s'agit généralement de concours créés à des fins éducatives. À la fin de cette section, vous trouverez un exemple de concours avec l'étiquette "Getting Started". Vous y trouverez non seulement l'échantillon, mais aussi un tutoriel sur l'utilisation d'un carnet de notes et la présentation des résultats, entre autres étapes pertinentes.
- Terrain de jeux : Ces compétitions conviennent à ceux qui souhaitent acquérir de l'expérience et continuer à améliorer leurs compétences. Les prix sont généralement des produits Kaggle (comme des t-shirts et des autocollants). Ces concours sont souvent amusants et ludiques.
- En classe : Ces concours sont généralement organisés par des universités et les participants sont des étudiants en apprentissage automatique. Leur objectif est d'impliquer et d'inspirer ces étudiants.
- Analyse : Il s'agit de concours d'analyse de données.
- Simulations : Ce qui les différencie des défis traditionnels d'apprentissage automatique supervisé sur Kaggle, ce sont les types de compétitions avec des tâches d'apprentissage par renforcement. Les concurrents développent des modèles et les font concourir dans un environnement simulé.
Outre les filtres principaux, vous disposez également d'autres filtres qui vous permettent de trier les concours en fonction de paramètres supplémentaires, tels que "Hotness", "Recently Launched", "Closing Soon", "Reward" et "Total Teams".
Figure 5.3 : Triage de la concurrence
Conseils pour la compétition Kaggle
1. Choisir un langage de programmation
Python et R sont les langages de programmation les plus fréquemment utilisés dans le domaine de la science des données, en particulier lorsqu'il s'agit de visualisations et de tâches d'apprentissage automatique. Si vous vous interrogez sur MATLAB, vous pouvez l'utiliser pour des tâches de science des données sur votre ordinateur local, mais les notebooks Kaggle ne prennent en charge que Python, R et Julia.
Si vous utilisez un autre langage de programmation, il vous sera peut-être plus facile d'effectuer certaines tâches, mais ce qui fait la force d'un langage de programmation, c'est la communauté et le soutien de la bibliothèque à code source ouvert qui l'accompagnent. Vous devez tenir compte du fait que (en utilisant l'un des langages les plus populaires) toute bibliothèque que vous importez sur votre ordinateur local pourra également être importée dans Kaggle.
Si vous êtes débutant, Python ou R sont d'excellents endroits pour commencer et s'y tenir jusqu'à ce que vous vous développiez dans le domaine. Gardez à l'esprit que de nombreux carnets partagés sur Kaggle sont écrits en Python et si vous devez les étudier, vous pourrez le faire confortablement si vous connaissez ce langage.
2. Participez aux concours étiquetés avec "Getting Started" (débuter)
Getting Started est parfait pour les débutants. Si vous participez à ces concours et que vous consultez les carnets de notes partagés par d'autres, vous apprendrez beaucoup, et relativement vite.
Voici quelques concours de démarrage que nous recommandons en fonction de vos connaissances :
- Si vous êtes familiarisé avec les algorithmes de classification, vous devriez essayer Titanic.
- Si vous avez une certaine expérience de la régression, vous pouvez jeter un coup d'œil au concours Prix de l'immobilier - Techniques de régression avancées.
- Si vous êtes intéressé par le domaine de la vision artificielle, vous devriez participer au projet Digit Recognizer.
- Si vous avez une certaine expérience du traitement d'images, nous vous recommandons la détection des points clés du visage.
- Si vous vous intéressez au traitement du langage naturel, consultez le site Bag of Words Meets Bags of Popcorn.
3. N'utilisez pas exclusivement Kaggle
Une fois que vous aurez essayé l'un des concours de base énumérés ci-dessus, vous aurez acquis un peu plus d'expérience et il sera peut-être bon pour vous de rechercher des concours sur d'autres plates-formes.
Sur DataCamp, vous pouvez participer à des concours de science des données tels que "Concevoir une stratégie de promotion pour une entreprise de boissons", ce qui vous demandera de faire des recherches et d'aller plus loin dans la mesure de vos capacités. La particularité de ce concours est qu'il n'est pas uniquement axé sur l'apprentissage automatique, mais qu'il met également les participants au défi d'améliorer considérablement leurs compétences en matière d'analyse, de narration et de visualisation. Vous pouvez consulter les carnets partagés pour ce concours dans l'onglet des participations.
Afin de maximiser vos chances de réussite et de tirer le meilleur parti de ce concours, il est recommandé de suivre d'abord les cours suivants :
- Analyse de données exploratoires en Python
- Réflexion statistique en Python
- Manipulation de données avec Pandas
- Segmentation de la clientèle en Python
- Analyse de clusters en Python
4. Mettre l'accent sur l'apprentissage
Les prix des concours Kaggle sont considérables. Cela peut vous inciter à vous écarter de votre objectif d'apprentissage. Ne vous focalisez pas sur le prix, mais donnez la priorité à l'apprentissage et à l'amélioration. Une fois que vous aurez acquis suffisamment d'expérience, vous aurez le temps de réfléchir à la manière d'atteindre la position la plus élevée.
5. Étudier d'autres carnets publics
L'étude des carnets de notes partagés dans le cadre des concours vous permettra d'apprendre différentes manières de résoudre un même problème.
6. Lire le règlement du concours
Lisez les informations et les règles du concours avant de décider d'y participer et assurez-vous de bien les comprendre avant de vous inscrire au concours.
7. Partagez vos solutions
En partageant vos solutions, vous augmenterez votre interaction avec d'autres scientifiques des données et vous serez en mesure d'obtenir un retour d'information de la part d'autres personnes. En ouvrant des sujets de discussion sur vos solutions, vous gagnerez des médailles plus rapidement et vous serez en mesure d'augmenter rapidement votre classement Kaggle. Vous trouverez plus d'informations sur le classement Kaggle dans la section 6.
8. Suivez ce cours dans DataCamp
La formation Gagner une compétition Kaggle en Python de DataCamp vous apprendra à aborder et à structurer toute inscription à une compétition de science des données. En suivant ce cours, vous apprendrez toutes les techniques fondamentales utilisées dans les concours, comme la validation des modèles d'apprentissage automatique et la prévention de l'ajustement excessif.
Que sont les classements Kaggle ?
Le système de classement Kaggle est un tableau de classement en direct qui classe les scientifiques des données de tous les niveaux d'expertise, qui apportent différents types de contributions à Kaggle, qu'il s'agisse de commentaires ou de participation à des concours Kaggle.
Outre le classement principal, il existe quatre autres types de classements différents : "Concours", "Jeu de données", "Carnet de notes" et "Discussion". Vous pouvez voir votre niveau dans chacune de ces catégories dans votre propre profil. Au fur et à mesure que vous gagnez des médailles dans les catégories ci-dessus, votre rang et votre niveau augmentent. N'oubliez pas que les médailles s'obtiennent en fonction de l'évaluation de la compétition et des votes positifs.
Il y a cinq niveaux principaux dans Kaggle : "Novice", "Contributeur", "Expert", "Maître" et "Grand Maître". À l'heure actuelle, il n'y a que 241 scientifiques des données dans la catégorie "Kaggle Grandmaster", qui est la catégorie la plus élevée. Cela prouve à quel point il est difficile d'en faire partie. Pour le reste, il y a actuellement 1 668 maîtres, 7 206 experts, 64 668 contributeurs et 92 747 novices. Le niveau auquel vous vous situez, tout comme le nombre de médailles que vous remportez, s'avérera très avantageux pour l'avancement de votre carrière.
Médailles Kaggle
Les médailles représentent une réussite singulière dans une catégorie. Il peut s'agir d'un excellent résultat à un concours, d'un carnet de notes populaire, d'un ensemble de données utiles ou d'un commentaire perspicace, pour n'en citer que quelques-uns. Vos réalisations sont normalisées et un système de classement est créé en établissant des comparaisons avec les contributions d'autres scientifiques des données.
Médailles de la compétition
Les médailles de compétition sont déterminées par votre classement dans les compétitions. N'oubliez pas que vous ne gagnez pas de médailles lors des concours dans les catégories InClass, Playground et Getting Started.
Dans les compétitions comptant de 0 à 99 équipes, le fait de figurer parmi les 40 % les plus performants vous permet d'obtenir une médaille de bronze. Vous recevrez une médaille d'argent si vous faites partie des 20 % les plus performants, et une médaille d'or si vous faites partie des 10 % les plus performants. Lorsque le nombre d'équipes augmente, la répartition des médailles change également. Par exemple, si vous participez à une compétition avec 1 000 équipes ou plus, les 10 % les plus performants recevront une médaille de bronze, les 5 % les plus performants recevront une médaille d'argent et les 10 meilleures équipes recevront une médaille d'or.
Médailles de l'ensemble de données
Plus vous partagez d'ensembles de données populaires, plus vous recevrez de votes positifs de la part des autres. Vos médailles de jeu de données sont déterminées par le nombre de ces votes positifs. Les ensembles de données ayant obtenu entre 5 et 20 votes reçoivent une médaille de bronze, les ensembles de données ayant obtenu entre 20 et 50 votes reçoivent une médaille d'argent et les ensembles de données ayant obtenu 50 votes ou plus reçoivent une médaille d'or. Les votes donnés par les utilisateurs novices ne sont pas pris en compte dans le calcul.
Médailles du carnet de notes
Les mêmes règles que pour les médailles des ensembles de données s'appliquent aux médailles des carnets de notes. Les carnets ayant obtenu entre 5 et 20 votes reçoivent une médaille de bronze, les carnets ayant obtenu entre 20 et 50 votes reçoivent une médaille d'argent et les carnets ayant obtenu 50 votes ou plus reçoivent une médaille d'or. Les votes donnés par les utilisateurs novices ne sont pas pris en compte dans le calcul.
Médailles de discussion
Les médailles de discussion sont obtenues en calculant les votes nets, qui sont obtenus en soustrayant les downvotes des upvotes. Les votes effectués sur vos anciens messages et les votes des novices ne sont pas pris en compte dans le calcul. Un vote net suffit pour obtenir une médaille de bronze. Si vous obtenez entre 5 et 10 votes nets, vous recevrez une médaille d'argent et si vous obtenez 10 votes nets ou plus, vous recevrez une médaille d'or.
Niveaux de performance
Un niveau de performance vous est attribué pour chaque catégorie de classement ("Compétitions", "Jeux de données", "Carnets de notes" et "Discussions"). Votre niveau le plus élevé dans toutes les catégories est affiché comme niveau principal sur votre profil.
Novice
Vous recevez automatiquement ce niveau lorsque vous vous inscrivez sur la plateforme.
Contributeur
Les conditions pour devenir "contributeur" sont les suivantes :
- Exécuter un cahier ou un script
- Soumettre une candidature à un concours ou à une tâche
- Faites un commentaire
- Donnez un upvote
Expert
Pour devenir "Expert", vous devez remporter au moins 2 médailles de bronze dans les concours, au moins 3 médailles de bronze dans les ensembles de données, au moins 5 médailles de bronze dans les carnets de notes et au moins 50 médailles de bronze dans les discussions.
Maître
Pour atteindre le niveau "Maître", vous devez remporter au moins 1 médaille d'or et 2 médailles d'argent dans les concours ; au moins 1 médaille d'or et 4 médailles d'argent dans les ensembles de données ; au moins 10 médailles d'argent dans les carnets de notes, et au moins 200 médailles dans les discussions, dont au moins 50 doivent être des médailles d'argent.
Grandmaster
Pour devenir "Grand maître", vous devez remporter au moins 5 médailles d'or dans des concours, dont au moins une médaille d'or en solo ; au moins 5 médailles d'or et 5 médailles d'argent dans des ensembles de données ; au moins 15 médailles d'or dans des carnets de notes ; et au moins 500 médailles dans des discussions, dont 50 doivent être des médailles d'or.
Combien de temps faut-il pour passer du statut de contributeur à celui d'expert ?
Tout dépend de votre persévérance et de votre contribution à Kaggle. En moyenne, il faut environ un an pour passer du statut de contributeur à celui d'expert, selon cette analyse. Ce délai dépend des différents niveaux d'effort que chaque scientifique des données est prêt à investir dans Kaggle. Par exemple, si vous investissez du temps dans l'apprentissage et l'amélioration, il vous faudra plus de temps pour obtenir l'insigne d'expert. En revanche, si vous essayez simplement de gagner le plus grand nombre de médailles possible le plus rapidement possible, cela peut prendre moins de temps.
Il est généralement préférable d'investir du temps pour faire de réels progrès et pas seulement pour gagner des médailles. Pour améliorer vos connaissances et vos compétences et progresser dans votre carrière, c'est l'expérience réelle qui compte.
Conseils de classement Kaggle
Comme indiqué précédemment, votre objectif doit être d'utiliser Kaggle ou DataCamp pour développer votre réseau, améliorer vos compétences et apprendre autant que possible.
Cependant, gagner des médailles est également précieux, bien sûr, et comme les conditions d'obtention des médailles dépendent également d'un nombre élevé de votes positifs, vous devriez envisager d'augmenter le nombre de votes positifs que vous recevez. Les conseils suivants vous aideront à augmenter votre nombre de médailles :
- Ne demandez pas de votes positifs. Si vous vous efforcez de fournir des informations utiles, les votes positifs devraient venir naturellement. En fait, le fait de demander aux gens des votes positifs peut être contre-productif et vous fera probablement rétrograder.
- Vous obtiendrez plus de votes positifs si vous mentionnez les auteurs. Mais utilisez ces informations de manière sélective et uniquement lorsqu'elles apportent une réelle valeur ajoutée à l'article, afin de ne pas courir le risque d'un spamming.
- N'oubliez pas : concentrez-vous uniquement sur l'amélioration de vos compétences et les médailles suivront.
Les niveaux et les médailles Kaggle sont des manifestations tangibles de vos réalisations réelles. Au fur et à mesure que vous progressez, le fait de voir vos réalisations se concrétiser vous motivera probablement.
Conclusion
Participer à des compétitions de science des données Kaggle ou DataCamp est amusant et constitue l'un des outils pour vous motiver dans votre parcours en science des données. Bien qu'il existe des scientifiques des données extraordinaires qui déterminent les prix des concours dans leurs modèles de revenus, l'objectif de la plupart des scientifiques des données est d'apprendre autant que possible des concours et d'acquérir une expérience réelle.
L'élément le plus utile ici est l'ambition d'améliorer le classement de la concurrence. Grâce à cette ambition, les scientifiques des données peuvent consulter les carnets de notes d'autres personnes et étudier différents codes et stratégies. Les suggestions qui seront données à votre code après le concours peuvent même être considérées comme un type de mentorat gratuit.
Pour savoir comment analyser un jeu de données dans le cadre d'un concours, consultez notre tutoriel sur les concours Kaggle.