Introduction à PySpark
Apprenez à mettre en œuvre la gestion des données distribuées et l'apprentissage automatique dans Spark à l'aide du package PySpark.
Commencer Le Cours Gratuitement4 heures45 exercices147 760 apprenantsDéclaration de réalisation
Créez votre compte gratuit
ou
En continuant, vous acceptez nos Conditions d'utilisation, notre Politique de confidentialité et le fait que vos données sont stockées aux États-Unis.Formation de 2 personnes ou plus ?
Essayer DataCamp for BusinessApprécié par les apprenants de milliers d'entreprises
Description du cours
Dans ce cours, vous apprendrez à utiliser Spark depuis Python ! Spark est un outil permettant d'effectuer des calculs parallèles avec de grands ensembles de données et il s'intègre bien à Python. PySpark est le paquetage Python qui permet à la magie d'opérer. Vous utiliserez ce paquet pour travailler avec des données sur les vols au départ de Portland et de Seattle. Vous apprendrez à manipuler ces données et à construire un pipeline d'apprentissage automatique pour prédire si les vols seront retardés ou non. Préparez-vous à mettre un peu de Spark dans votre code Python et à plonger dans le monde de l'apprentissage automatique haute performance !
Formation de 2 personnes ou plus ?
Donnez à votre équipe l’accès à la plateforme DataCamp complète, y compris toutes les fonctionnalités.Dans les titres suivants
Big Data avec PySpark
Aller à la pisteScientifique en apprentissage automatique en Python
Aller à la piste- 1
Apprendre à connaître PySpark
GratuitDans ce chapitre, vous apprendrez comment Spark gère les données et comment vous pouvez lire et écrire des tableaux depuis Python.
Qu'est-ce que Spark ?50 xpUtiliser Spark en Python50 xpExaminer le SparkContext100 xpUtilisation des DataFrame50 xpCréer une session SparkSession100 xpVisualisation des tableaux100 xpÊtes-vous curieux ?100 xpPandafy un DataFrame Spark100 xpMettez du Spark dans vos données100 xpAbandonner l'intermédiaire100 xp - 2
Manipulation des données
Dans ce chapitre, vous découvrirez le module pyspark.sql, qui fournit des requêtes de données optimisées à votre session Spark.
- 3
Commencer avec les pipelines d'apprentissage automatique
PySpark intègre des routines d'apprentissage automatique de pointe, ainsi que des utilitaires permettant de créer des pipelines d'apprentissage automatique complets. Vous les découvrirez dans ce chapitre.
Pipelines d'apprentissage automatique50 xpRejoindre les DataFrame100 xpTypes de données50 xpChaîne vers entier100 xpCréer une nouvelle colonne100 xpFabrication d'un booléen100 xpCordes et facteurs50 xpTransporteur100 xpDestination100 xpAssembler un vecteur100 xpCréer le pipeline100 xpTest vs. Train50 xpTransformer les données100 xpDiviser les données100 xp - 4
Mise au point et sélection du modèle
Dans ce dernier chapitre, vous appliquerez ce que vous avez appris pour créer un modèle qui prédit les vols qui seront retardés.
Formation de 2 personnes ou plus ?
Donnez à votre équipe l’accès à la plateforme DataCamp complète, y compris toutes les fonctionnalités.Dans les titres suivants
Big Data avec PySpark
Aller à la pisteScientifique en apprentissage automatique en Python
Aller à la pisteLore Dirick
Voir PlusDirector of Data Science Education at Flatiron School
Nick Solomon
Voir PlusData Scientist
Qu’est-ce que les autres apprenants ont à dire ?
Inscrivez-vous 15 millions d’apprenants et commencer Introduction à PySpark Aujourd’hui!
Créez votre compte gratuit
ou
En continuant, vous acceptez nos Conditions d'utilisation, notre Politique de confidentialité et le fait que vos données sont stockées aux États-Unis.