Accéder au contenu principal

Glossaire de la science des données : Définitions des termes courants de la science des données

Mettez-vous sur la voie de la maîtrise des données grâce à ce glossaire complet de la science des données : de la fonction d'activation au Z-Score, tout est couvert.
Actualisé 26 nov. 2024  · 38 min de lecture

Science des données Vectoriel

A

Score de précision

Fonction d'activation

Algorithme

Apache Spark

API

Intelligence artificielle (IA)

Réseaux neuronaux artificiels (RNA)

B

Rétropropagation (BP)

Réseau bayésien

Théorème de Bayes

Biais

Compromis biais-variance

Big Data

Distribution binomiale

Analyste commercial

Analyse d'entreprise (BA)

Business Intelligence (BI)

C

Variable catégorielle

Classification des variables catégorielles

Regroupement

Informatique

Vision par ordinateur

Matrice de confusion

Variable continue

Correlation

Fonction de coût

Covariance

Validation croisée (non validée)

D

Tableau de bord

Analyse des données (DA)

Analyste de données

Base de données

Système de gestion de base de données (SGBD)

Consommateur de données

Ingénieur de données

Ingénierie des données (DE)

Enrichissement des données

Dataframe

Gouvernance des données

Data Journalism

Data Lake

Maîtrise des données

Exploration de données

Modélisation des données

Data Pipeline

Science des données (DS)

Scientifique des données

Ensemble de données

Data Structure

Visualisation des données

Entrepôt de données

Traitement des données

Arbre de décision

Apprentissage en profondeur (DL)

Réduction de la dimensionnalité

E

EDA

ELT

ETL

Mesures d'évaluation

F

Faux négatif (FN, erreur de type II)

Faux positif (FP, erreur de type I)

Fonctionnalité

Ingénierie des fonctionnalités

Sélection des caractéristiques

F-Score

G

Descente en gradient

H

Hadoop

Hyperparamètre

Hypothèse

I

Imputation

K

K-Means

K-Voisins les plus proches (KNN)

L

Algèbre linéaire

Régression linéaire

Régression logistique

M

Apprentissage machine (ML)

Moyenne

Erreur absolue moyenne (MAE)

Erreur quadratique moyenne (EQM)

Médiane

Mode

Modèle Tuning

Modélisation à plusieurs variables

N

Naive Bayes

Traitement du langage naturel (NLP)

Normalisation

NoSQL

Hypothèse nulle

O

Source ouverte

Variable ordinale

Valeur aberrante

Surajustement

P

Paramètres

Précision

Analyse prédictive

Analyse en composantes principales (ACP)

Python

R

R

Forêt aléatoire

Rappel

Régression

Apprentissage par renforcement (RL)

Erreur quadratique moyenne (RMSE)

S

Erreur d'échantillonnage

SQL

Écart-type

Apprentissage supervisé

SVM

Données synthétiques

T

Variable cible

Ensemble de tests

Séries chronologiques

Ensemble de formation

Vrai négatif (TN)

Vrai positif (TP)

U

Sous-adaptation

Modélisation univariée

Données non structurées

Apprentissage non supervisé

V

Variance

W

Récupération de données sur le Web

Z

Z-Score

A

Score de précision

Un score de précision est une mesure d'évaluation utilisée pour estimer les performances d'un modèle d'apprentissage automatique. Il représente le rapport entre le nombre de prédictions correctes et le nombre total de prédictions. 

Fonction d'activation

Une fonction d'activation est utilisée dans les réseaux neuronaux artificiels (RNA) pour déterminer si un neurone doit être activé ou non en calculant sa sortie vers la couche cachée suivante (ou couche de sortie) sur la base de l'entrée de la couche précédente (ou couche d'entrée). La fonction d'activation est responsable de la transformation non linéaire d'un réseau neuronal.

Algorithme

Un algorithme est une séquence d'étapes répétables, souvent exprimées mathématiquement, écrites par un humain et exécutées par un ordinateur, pour résoudre un certain type de problème de science des données. Les algorithmes vont de très simples à extrêmement complexes. Différents algorithmes sont adaptés à différentes tâches et technologies. Le concept principal est qu'un algorithme prend une entrée et produit une sortie, et la même entrée produira toujours la même sortie. Dans l'apprentissage automatique, les algorithmes reçoivent des données et des hyperparamètres, identifient et apprennent des modèles communs à partir des données et produisent des résultats sous la forme de prédictions.

Apache Spark

Apache Spark est un framework de traitement parallèle multifonctionnel open-source pour l'analyse et la modélisation des big data. Spark vous permet de répartir les données et les calculs sur des clusters à plusieurs nœuds (considérez chaque nœud comme un ordinateur distinct). Le fractionnement de vos données permet de travailler plus facilement avec de très grands ensembles de données, car chaque nœud ne travaille qu'avec une petite quantité de données. Comme chaque nœud travaille sur son propre sous-ensemble des données totales, il effectue également une partie des calculs totaux requis, de sorte que le traitement des données et les calculs sont effectués en parallèle par les nœuds de la grappe. C'est un fait que le calcul parallèle peut rendre certains types de tâches de programmation beaucoup plus rapides.

API

API est un acronyme pour Application Programming Interface (interface de programmation d'applications), un intermédiaire logiciel qui assure une connexion entre des applications ou des ordinateurs. Un exemple d'API est l'intégration de Google Maps dans une application de covoiturage. Les scientifiques des données travaillent souvent avec des API pour accéder aux données (par exemple, l'API Twitter pour télécharger des tweets) ou pour présenter une solution qu'ils ont élaborée (par exemple, une API qui appelle un modèle d'apprentissage automatique en production).

Intelligence artificielle (IA)

L'intelligence artificielle est une branche de l'informatique qui fait appel à des techniques d'apprentissage automatique, de programmation et de science des données permettant aux ordinateurs de se comporter de manière intelligente. Les systèmes d'IA sont vastes et présentent des degrés de complexité variables. Il peut s'agir de systèmes basés sur des règles ou de systèmes basés sur l'apprentissage automatique, et ils peuvent remplir des fonctions telles que la détection de la fraude, la reconnaissance d'objets, la traduction linguistique, la prédiction du cours des actions, et bien d'autres encore. 

Réseaux neuronaux artificiels (RNA)

Un réseau neuronal artificiel est un modèle d'apprentissage automatique librement inspiré des réseaux neuronaux biologiques du cerveau humain. Les réseaux neuronaux sont constitués de centaines de couches d'unités interconnectées appelées neurones. Sur le plan conceptuel, un réseau neuronal artificiel comporte les types de couches suivants : couche d'entrée, couche de sortie et couche cachée, utilisées pour filtrer les données, les traiter à l'aide d'une fonction d'activation et faire des prédictions au niveau de la sortie. Les ANN sont les éléments constitutifs d'un sous-ensemble de l'apprentissage automatique appelé apprentissage profond, qui permet d'obtenir des résultats complexes tels que la reconnaissance d'images ou de sons, la détection d'objets, la traduction de langues, etc.

B

Rétropropagation (BP)

La rétropropagation est une technique utilisée dans la formation des réseaux d'apprentissage profond et basée sur la mise en œuvre de la descente de gradient pour ajuster itérativement les poids et les biais afin d'améliorer la précision d'un réseau. L'algorithme calcule l'erreur de sortie à chaque itération de formation, puis la propage dans le réseau, ce qui lui permet de minimiser l'erreur dans les itérations de formation ultérieures. 

Réseau bayésien

Un réseau bayésien est un graphe probabiliste montrant la relation entre des variables aléatoires dans un domaine incertain, où les nœuds du graphe représentent ces variables et les liens entre chaque paire de nœuds (les arêtes) représentent la probabilité conditionnelle des variables correspondantes. Les réseaux bayésiens sont par exemple utilisés dans les diagnostics médicaux, où les chercheurs prédisent les résultats de santé en tenant compte de tous les facteurs susceptibles d'influer sur ces résultats.

Théorème de Bayes

Le théorème de Bayes est une équation mathématique permettant de calculer la probabilité conditionnelle, c'est-à-dire la probabilité que l'événement B se produise si l'événement A s'est déjà produit. L'une des applications de ce théorème en science des données est la construction de réseaux bayésiens pour les grands ensembles de données.

Biais 

Le biais fait référence à la tendance des modèles à sous-adapter les données, ce qui conduit à des prédictions inexactes dans l'apprentissage automatique et la science des données. Il s'agit de la définition du biais qui est souvent discutée dans le cadre du compromis biais-variance. En outre, les préjugés peuvent également signifier les préjugés algorithmiques - qui se réfèrent à la propension des modèles d'apprentissage automatique à reproduire des préjugés sociétaux nuisibles en traitant différemment différents groupes d'individus sur la base d'attributs protégés tels que la race, l'orientation sexuelle, l'identification de genre, l'âge, la grossesse, le statut d'ancien combattant, et plus encore.

Compromis biais-variance

Le compromis biais-variance est le compromis entre le biais et la variance lors de la création d'un modèle d'apprentissage automatique. Le biais et la variance sont deux types d'erreur de prédiction lors de la création de modèles d'apprentissage automatique. Un biais élevé indique un sous-ajustement du modèle et une variance élevée indique un surajustement du modèle. La réduction de ces deux facteurs à un niveau optimal diminue l'erreur globale des prédictions.

Big Data

Le Big Data est le domaine qui tourne autour du traitement, de l'exploitation et de l'extraction d'informations à partir d'ensembles de données trop volumineux ou trop complexes pour les outils de traitement de données traditionnels. Les Big Data sont définies par les cinq V : vélocité - la vitesse de génération des données ; volume - la quantité de données générées ; variété - la variété des types de données (texte, images, données tabulaires, etc.) ; véracité - la qualité et la véracité des données ; et valeur - la propension des données à être traduites en informations commerciales précieuses. 

Distribution binomiale

La distribution binomiale est la distribution de probabilité discrète des résultats d'essais indépendants, avec deux résultats possibles mutuellement exclusifs (succès et échec), un nombre fini d'essais et une probabilité constante de succès. En termes simples, une distribution binomiale peut être considérée comme la probabilité d'un résultat particulier (succès ou échec) dans un événement répété plusieurs fois (par exemple, la probabilité d'obtenir 3 sur un dé lancé 5 fois). 

Analyste commercial

Les analystes commerciaux sont chargés de lier les données à des résultats exploitables qui augmentent la rentabilité ou l'efficacité. Ils ont une connaissance approfondie du domaine d'activité et utilisent souvent le langage SQL avec des outils non codés pour communiquer les informations dérivées des données. 

Analyse d'entreprise (BA)

L'analyse commerciale est un sous-domaine de l'analyse qui se concentre sur l'utilisation de données historiques et actuelles pour découvrir des informations opérationnelles précieuses, anticiper les tendances futures possibles et prendre des décisions commerciales basées sur des données. La boîte à outils de l'analyse commerciale comprend généralement l'analyse statistique, l'analyse descriptive et la visualisation des données, et peut s'étendre à l'analyse prédictive et à l'apprentissage automatique. 

 

Intelligence économique (BI)

La veille stratégique est un sous-domaine de l'analyse qui combine l'analyse descriptive, l'analyse commerciale, la visualisation des données, l'analyse statistique, l'établissement de rapports, etc. Il vise à aider les organisations à prendre des décisions fondées sur des données. La BI s'appuie généralement sur des outils non codés tels que Tableau et Power BI pour explorer les tendances des données historiques et actuelles. Contrairement à l'analyse commerciale, la BI se concentre principalement sur l'analyse descriptive.

C

Variable catégorielle

Une variable catégorielle est une variable qui peut avoir une valeur parmi un nombre limité de valeurs possibles (catégories) sans qu'aucun ordre intrinsèque ne soit impliqué. Un exemple de variable catégorielle serait l'état civil (par exemple, marié, célibataire, divorcé). Elle est également appelée variable nominale ou qualitative.

Classification

La classification est un problème d'apprentissage supervisé lorsqu'il est nécessaire de prédire des résultats catégoriques sur la base de caractéristiques d'entrée. Des exemples de problèmes de classification sont la détection des fraudes (par exemple, cette transaction est-elle frauduleuse compte tenu de l'ensemble des caractéristiques d'entrée ?) et les filtres anti-spam (par exemple, cet e-mail est-il un spam ou non ?). Les algorithmes de classification couramment utilisés sont les voisins les plus proches, les arbres de décision, la forêt aléatoire, etc. 

Regroupement

Le regroupement est un problème d'apprentissage non supervisé qui consiste à regrouper toutes les observations d'un ensemble de données en fonction de leur similarité par rapport à certaines caractéristiques communes. Contrairement à un problème de classification, ces groupes (appelés clusters) ne sont pas prédéfinis par des humains, mais identifiés par des algorithmes d'apprentissage automatique lors de l'apprentissage des données d'entrée. Les éléments de chaque groupe sont similaires entre eux et différents de tous les autres. Les algorithmes de regroupement les plus courants sont les suivants : k-means, regroupement hiérarchique, regroupement spectral, etc.

Informatique

L'informatique est un domaine d'études à multiples facettes qui se concentre sur les aspects théoriques et pratiques du traitement de l'information dans les ordinateurs numériques, la conception de matériel et de logiciels informatiques et les applications des ordinateurs. En particulier, l'informatique traite de l'intelligence artificielle, des systèmes informatiques, des algorithmes, des structures de données, de la modélisation des données, de la sécurité, de la conception d'ordinateurs et de réseaux, etc.

Vision par ordinateur

La vision par ordinateur est un domaine de l'informatique qui vise à permettre aux ordinateurs d'obtenir une compréhension de haut niveau à partir d'images numériques ou de vidéos, proche de la façon dont les humains peuvent les voir. La vision par ordinateur est devenue particulièrement populaire avec l'évolution de l'apprentissage profond et l'accumulation de données volumineuses. Certaines de ses applications sont la reconnaissance des objets et des visages, l'analyse des mouvements, les voitures autonomes et la reconnaissance optique des caractères.

Matrice de confusion

Une matrice de confusion est un tableau illustrant la performance prédictive d'un modèle de classification. Habituellement, une matrice de confusion est créée pour un résultat binaire (c'est-à-dire des problèmes de prédiction avec seulement deux types de prédiction - par exemple, si une transaction est frauduleuse ou non), de sorte que le tableau résultant est un tableau deux par deux. Une matrice de confusion représente les relations entre les prédictions et les étiquettes réelles pour les deux classes. Il permet de visualiser facilement le nombre de prédictions exactes (vrais positifs et vrais négatifs), ainsi que le nombre de faux positifs (erreur de type I) et de faux négatifs (erreur de type II).

Variable continue

Une variable continue est une variable qui peut prendre un ensemble infini de valeurs à l'intérieur d'un intervalle donné. La taille et le poids sont des exemples de variables continues.

Corrélation

La corrélation est la force et la direction de la relation entre deux ou plusieurs variables, mesurée par un coefficient de corrélation, ou coefficient de Pearson. D'un point de vue statistique, un coefficient de corrélation est le rapport entre la covariance de deux variables et le produit de leurs écarts types. Il peut prendre les valeurs de -1 (une corrélation négative parfaite) à 1 (une corrélation positive parfaite). La présence d'une corrélation entre deux variables n'implique pas une relation de cause à effet.

Fonction de coût

La fonction de coût est une fonction d'apprentissage automatique utilisée pour mesurer la moyenne des différences entre les valeurs prédites et les valeurs réelles sur l'ensemble de l'apprentissage, et censée être minimisée.

Covariance

La covariance est une mesure de la relation entre deux variables. Contrairement à la variance qui mesure les variations à l'intérieur d'une même variable, la covariance montre comment les variations d'une variable influencent les changements de la seconde. La covariance est utilisée pour calculer un coefficient de corrélation.

Validation croisée (non validée)

La validation croisée est une méthode de rééchantillonnage lors de la formation de modèles d'apprentissage automatique qui divise les données étiquetées en ensembles de formation et de test. À chaque itération de la validation croisée, différentes parties des données sont utilisées pour former et tester le modèle. L'ensemble d'apprentissage est utilisé pour former un modèle, et l'ensemble de test est utilisé pour faire des prédictions et les comparer avec les étiquettes réelles de ces entrées. Ensuite, une mesure de précision globale est calculée pour estimer la performance prédictive du modèle obtenu.

D

Tableau de bord

Un tableau de bord est une interface graphique interactive utilisée pour visualiser, résumer et rapporter des indicateurs de performance clés (KPI), des mesures de progrès et des informations sur les processus d'entreprise qui permettent au public cible de saisir facilement les informations les plus importantes à plusieurs niveaux. Les tableaux de bord sont construits à l'aide d'outils non codants tels qu'Excel, Tableau ou PowerBI, ou même d'outils codants tels que Python et R. Un tableau de bord est souvent lié à des bases de données et à des services régulièrement mis à jour.

Analyse des données (DA)

L'analyse des données est une discipline qui se concentre sur le nettoyage, la transformation, la visualisation et l'exploration des données dans le but d'extraire des modèles et des informations significatifs et de communiquer les résultats aux parties intéressées. L'analyse des données est généralement la première étape de tous les projets de science des données, mais elle peut également constituer un projet autonome. Contrairement à la science des données, il s'agit davantage d'analyse descriptive que d'analyse prédictive.

Analyste de données

L'analyste de données est similaire à l'analyste d'entreprise. Il est chargé d'analyser les données et de rendre compte des résultats de son analyse. Ils ont une connaissance approfondie du processus d'analyse des données et tirent leurs conclusions à l'aide d'une combinaison d'outils codés et non codés.

Base de données

Une base de données est un espace de stockage structuré où les données sont organisées dans de nombreux tableaux différents de manière à ce que les informations nécessaires puissent être facilement accessibles et résumées. Les bases de données sont principalement utilisées avec un système de gestion de base de données relationnelle (SGBDR) tel qu'Oracle ou PostgreSQL. Le langage de programmation le plus couramment utilisé pour interagir avec les données d'une base de données est le langage SQL.

Système de gestion de base de données (SGBD)

Un système de gestion de base de données est un logiciel qui permet d'effectuer facilement différentes opérations sur les données : accès, manipulation, récupération, gestion et stockage des données dans une base de données. En fonction de la manière dont les données sont organisées et structurées, il existe différents types de SGBD : relationnel, graphique, hiérarchique, etc. Quelques exemples de SGBD : Oracle, MySQL, PostgreSQL, Microsoft SQL Server, MongoDB.

Consommateur de données

Les consommateurs de données occupent souvent des fonctions non techniques, mais consomment les données et les analyses fournies par les professionnels des données pour prendre des décisions fondées sur les données. Les consommateurs de données doivent souvent s'entretenir avec des professionnels des données et doivent être en mesure de déterminer quand les données peuvent ou ne peuvent pas être utilisées pour répondre aux questions de l'entreprise.

Ingénieur de données

Un ingénieur de données est un spécialiste chargé de fournir les bonnes données aux scientifiques et analystes de données. Ils conçoivent et maintiennent l'infrastructure de stockage et les pipelines de données qui rassemblent de grandes quantités de données brutes provenant de diverses sources dans un emplacement centralisé avec des données propres, correctement formatées et pertinentes pour l'organisation.

Ingénierie des données (DE)

L'ingénierie des données est une spécialisation qui se concentre sur l'élargissement de l'accès aux données au sein de l'organisation. Les ingénieurs de données travaillent sur l'acquisition, la collecte, la gestion et le stockage des données, ainsi que sur la mise en place de pipelines de données et la transformation des données en données de haute qualité, utilisables par le reste de l'organisation. 

Enrichissement des données

L'enrichissement des données est le processus d'amélioration, de raffinement et d'augmentation des données brutes, afin de les rendre plus utiles à l'organisation et, par conséquent, d'obtenir des informations commerciales plus significatives et d'optimiser l'analyse prédictive.

Dataframe

Un DataFrame est une structure de données tabulaires avec des axes étiquetés (lignes et colonnes) de types potentiellement différents.

Gouvernance des données

La DAMA définit la gouvernance des données comme "la planification, la supervision et le contrôle de la gestion des données et des sources liées aux données". La gouvernance des données définit les rôles, les responsabilités et les processus permettant de garantir la disponibilité, la pertinence, la qualité, la facilité d'utilisation, l'intégrité et la sécurité des données. La gouvernance des données comprend un organe directeur, un cadre de règles et de pratiques pour répondre aux besoins d'information de l'entreprise, et un programme pour mettre en œuvre ces pratiques.

Journalisme de données

Le journalisme de données est un type de journalisme qui s'intéresse au traitement et à l'analyse de grandes quantités de données numériques, dans le but de créer une histoire autour de ces données ou d'informations dérivées de ces données. Ce rôle est apparu comme le résultat d'un flux d'informations en constante augmentation et de l'interaction croissante du journalisme moderne avec des sphères telles que les statistiques, les technologies de l'information et la science des données.

Lac de données

Un lac de données est un référentiel de stockage unique contenant une grande quantité de données brutes, non traitées, de toutes sortes et provenant de diverses sources, qui n'ont pas encore d'objectif défini. Un lac de données comprend à la fois des données structurées de différentes structures sans aucune relation entre elles et, plus souvent, des données non structurées, telles que des documents et des fichiers texte. Les données brutes sont conservées en tant que source d'information originale, sans qu'il soit nécessaire de les structurer et de les manipuler, à moins que les données ne soient nécessaires.

Maîtrise des données

La maîtrise des données est la capacité de lire, d'écrire, d'analyser, de communiquer et de raisonner avec des données afin de prendre de meilleures décisions fondées sur des données. D'un point de vue organisationnel, il s'agit d'un spectre de compétences en matière de données allant de la prise de décision fondée sur les données aux compétences techniques avancées en science des données, ingénierie des données et apprentissage automatique, de sorte que chaque membre de l'organisation dispose des compétences pertinentes et génère de la valeur à partir des données à l'échelle.

Exploration de données

Le data mining est le processus qui consiste à collecter des données pertinentes à partir de différentes sources, à les nettoyer et à les transformer dans le bon format, à détecter et à extraire des tendances cachées significatives, des schémas et des interconnexions entre les données, et à communiquer des informations exploitables pour aider l'organisation à prendre des décisions fondées sur des données et à élaborer de meilleures stratégies. À cette fin, diverses techniques d'analyse et de modélisation sont utilisées, notamment l'analyse statistique, la visualisation des données, la régression et la classification.

Modélisation des données

La modélisation des données est le processus de développement d'une représentation visuelle de l'ensemble d'un système informatique ou de certaines de ses parties, afin de communiquer les connexions entre les points et les structures de données. Les modèles de données présentent les types de données utilisés et stockés dans le système, les relations entre ces différentes sources de données et la manière dont les données sont regroupées en fonction de différents attributs et caractéristiques. Une définition légèrement modifiée que vous pouvez rencontrer dans la science des données pour la modélisation des données est : la construction de modèles fiables qui transforment les données brutes en informations prédictives, cohérentes et exploitables. L'objectif principal est de comprendre clairement les besoins critiques des entreprises, les sources de données disponibles et les délais, et de fournir un cadre pertinent, basé sur des données et correctement formaté, pour répondre à ces besoins.

Pipeline de données

Un pipeline de données est un ensemble de scripts de traitement de données qui sont liés, automatisant ainsi le flux de données à travers une organisation où les données sont extraites, transformées et chargées afin d'être prêtes à être utilisées. 

Science des données (DS)

La science des données est un domaine d'étude interdisciplinaire à multiples facettes qui utilise diverses méthodes scientifiques, des techniques d'analyse avancées et des algorithmes de modélisation prédictive pour extraire des informations significatives à partir de données, afin de répondre à des questions stratégiques commerciales ou scientifiques dans de nombreux domaines. Elle combine un large éventail de compétences techniques et non techniques et nécessite généralement de solides connaissances dans le domaine de l'industrie où elle est appliquée, afin de pouvoir interpréter correctement les données disponibles et les résultats obtenus.

Scientifique des données

Les Data Scientists recherchent, extraient et rapportent des informations significatives dans les données de l'organisation. Ils communiquent ces informations aux parties prenantes non techniques et ont une bonne compréhension des flux de travail d'apprentissage automatique et de la manière de les relier aux applications commerciales. Ils travaillent presque exclusivement avec des outils de codage, effectuent des analyses et travaillent souvent avec des outils de big data.

Ensemble de données

Un ensemble de données est une collection de données d'un ou de plusieurs types représentant des observations réelles ou générées synthétiquement, et utilisées pour l'analyse statistique ou la modélisation des données. Les données d'un ensemble de données peuvent provenir de nombreuses sources et sont généralement stockées dans une sorte de structure de données, le plus souvent un tableau, où les colonnes correspondent à différentes variables et les lignes à différentes entrées de données.

Structure des données

Une structure de données est un moyen d'organiser et de stocker des données afin de pouvoir y accéder et les utiliser efficacement. La structure des données définit la relation entre les données et les opérations qui peuvent être effectuées sur celles-ci. Les structures de données couramment rencontrées en science des données sont les dataframes, les listes, les tableaux, etc. 

Visualisation des données 

La visualisation des données est un domaine interdisciplinaire qui traite de la condensation et de la représentation des informations sous forme visuelle. Les données peuvent être visualisées à l'aide d'une variété de graphiques tels que des cartes, des histogrammes, des diagrammes à barres et des diagrammes linéaires, et peuvent être combinées pour former des infographies, des tableaux de bord, etc. La visualisation des données est souvent utilisée pour aider le public cible à mieux comprendre les données sous-jacentes et les résultats obtenus.

Entrepôt de données

Un entrepôt de données est un référentiel central permettant de stocker des données structurées, nettoyées et transformées, collectées à partir de sources multiples au moyen du processus ETL (extraction, transformation, chargement). Les professionnels des données peuvent facilement accéder aux informations nécessaires de l'entrepôt de données par le biais d'outils de veille stratégique, de requêtes SQL, etc. et les utiliser pour une analyse et une modélisation plus poussées afin de répondre aux questions de l'entreprise.

Traitement des données 

Le data wrangling est également appelé data munging. Les tâches de traitement des données concernent le nettoyage, la restructuration, la fusion, l'agrégation et la transformation des données dans un format approprié à un objectif spécifique. En résumé, il s'agit d'un processus de préparation des données en vue d'un accès plus facile et d'une analyse des données.

Arbre de décision 

Un arbre de décision est un algorithme d'apprentissage automatique supervisé utilisé principalement pour les problèmes de classification, mais aussi de régression. Les arbres de décision posent une séquence de questions de type "if-else" sur les caractéristiques individuelles, dans le but de déduire les étiquettes de classe. Un arbre de décision bénéficie d'une représentation graphique arborescente possible, de l'imitation de la capacité de prise de décision humaine et d'une logique intuitivement compréhensible, mais ce type de modèle a tendance à s'adapter de manière excessive.

Apprentissage en profondeur (DL)

L'apprentissage en profondeur est un sous-ensemble d'algorithmes d'apprentissage automatique basés sur des réseaux neuronaux artificiels (RNA) multicouches qui s'inspirent largement de la structure du cerveau. Les ANN sont très flexibles et peuvent apprendre à partir d'énormes quantités de données, afin de fournir des résultats très précis. Ils sont souvent à l'origine de certains cas d'utilisation de la science des données et de l'apprentissage automatique, tels que la reconnaissance d'images ou de sons, la traduction de langues et d'autres problèmes avancés.

Réduction de la dimensionnalité

La réduction de la dimensionnalité est le processus qui consiste à réduire le nombre de caractéristiques de l'ensemble d'apprentissage, en ne conservant que les caractéristiques les plus pertinentes qui capturent la plupart des variations, afin d'améliorer les performances du modèle. La réduction de la dimensionnalité est particulièrement utile pour les grands ensembles de données comportant de nombreuses variables. Elle permet d'optimiser l'espace de stockage et le temps de calcul, et de résoudre un problème de multicolinéarité. La technique de réduction de la dimensionnalité la plus répandue est l'ACP (analyse en composantes principales).

E

EDA

L'AED est un acronyme pour analyse exploratoire des données et se réfère à la première phase de l'analyse des données, axée sur l'exploration de base des données disponibles, la synthèse de leurs principales caractéristiques et la recherche de modèles et de tendances initiaux, de problèmes à résoudre et de questions à approfondir. À ce stade, un analyste de données ou un scientifique des données tire une compréhension générale des données qui servira de base à l'analyse ultérieure, plus détaillée, des données.

ELT

ELT (extract, load, transform) est un système de pipeline de données conçu par des ingénieurs de données, une alternative à l'approche plus populaire ETL (extract, transform, load). Avant d'appliquer toute transformation, les données brutes sont chargées dans le lac de données, puis transformées sur place. L'avantage de l'ELT par rapport à l'ETL est qu'il prend moins de temps, qu'il convient au traitement de grands ensembles de données et qu'il est plus rentable.

ETL

ETL (extract, transform, load) est un système de pipeline de données conçu par des ingénieurs de données. Les données sont extraites de sources multiples, transformées de leur forme brute en un format approprié pour être cohérentes avec les données provenant d'autres sources, et chargées dans l'entrepôt de données cible. À partir de là, il peut être utilisé pour une analyse et une modélisation plus poussées des données afin de résoudre divers problèmes commerciaux.

Mesures d'évaluation

Les mesures d'évaluation sont un ensemble de mesures utilisées pour estimer la performance d'un modèle statistique ou d'apprentissage automatique. Quelques exemples de mesures d'évaluation sont le score de précision, le score f, le rappel et le RMSE.

F

Faux négatif (FN, erreur de type II)

Un faux négatif est un résultat lorsqu'un modèle de classification prédit incorrectement la classe négative pour une variable cible binaire (par exemple, si nous prédisons le taux de désabonnement des clients, un faux négatif génère une prédiction "ne désabonnera pas" alors que l'étiquette réelle est "désabonnera").

Faux positif (FP, erreur de type I)

Un faux positif est un résultat lorsqu'un modèle de classification prédit de manière incorrecte la classe positive pour une variable cible binaire. Par exemple, si nous prévoyons le désabonnement d'un client, un faux positif génère une prédiction "va désabonner" alors que l'étiquette réelle est "ne désabonnera pas".

Fonctionnalité

Une caractéristique est une variable indépendante utilisée comme entrée dans un modèle d'apprentissage automatique. Par exemple, si nous prédisons la probabilité de diabète en utilisant la taille, le poids et la consommation de sucre, la taille, le poids et la consommation de sucre sont des caractéristiques.

Ingénierie des fonctionnalités

L'ingénierie des caractéristiques est le processus qui consiste à utiliser les connaissances du domaine et l'expertise en la matière pour transformer des caractéristiques brutes en caractéristiques qui reflètent mieux le problème sous-jacent et sont mieux adaptées aux algorithmes d'apprentissage automatique. Il s'agit d'extraire de nouvelles caractéristiques des données disponibles ou de manipuler les caractéristiques existantes. Par exemple, si nous essayons de prédire un résultat sanitaire tel que la probabilité d'être atteint de diabète, le calcul d'une caractéristique d'IMC à l'aide de caractéristiques de taille et de poids relève de l'ingénierie des caractéristiques.

Sélection des caractéristiques

La sélection des caractéristiques est le processus de sélection d'un sous-ensemble de caractéristiques de l'ensemble de données qui sont les plus pertinentes pour prédire la variable cible. Un processus de sélection intelligente des caractéristiques est particulièrement important pour les grands ensembles de données, car il réduit la complexité du modèle, le surajustement et le temps de calcul, tout en augmentant la précision du modèle.

F-Score

Le score F est une mesure d'évaluation des performances du modèle qui combine à la fois la précision et le rappel. En général, on utilise le score F1, qui est la moyenne harmonique de la précision et du rappel. Le cas le plus générique est Fβ, où une pondération supplémentaire est appliquée à la précision ou au rappel.

G

Descente en gradient 

La descente de gradient est un processus d'optimisation itératif utilisé dans l'apprentissage automatique pour minimiser la fonction de coût en trouvant les valeurs optimales des paramètres de la fonction. 

H

Hadoop 

Hadoop est un logiciel libre basé sur Java qui permet le traitement parallèle et le stockage distribué de données volumineuses sur des grappes de plusieurs ordinateurs. Hadoop permet de gagner du temps et de traiter des quantités de données beaucoup plus importantes qu'avec un seul ordinateur.

Hyperparamètre

Les hyperparamètres sont des attributs relatifs à un modèle d'apprentissage automatique dont la valeur est définie manuellement avant le début du processus de formation. Contrairement aux autres paramètres, les hyperparamètres ne peuvent pas être estimés ou appris directement à partir des données. En ajustant les hyperparamètres et en estimant la performance du modèle qui en résulte, nous pouvons déterminer leurs valeurs optimales pour obtenir le modèle le plus précis. Intuitivement, l'ajustement d'un hyperparamètre s'apparente à l'ajustement d'un bouton de radio lorsque l'on tente d'atteindre un signal parfait. Le nombre d'arbres dans l'algorithme de la forêt aléatoire est un exemple d'hyperparamètre.

Hypothèse 

Une hypothèse est une supposition concernant un problème ou un événement qui doit être testée et, en fonction du résultat de l'expérience, prouvée ou rejetée.

I

Imputation

L'imputation est le processus qui consiste à compléter les valeurs manquantes dans un ensemble de données. Les techniques d'imputation peuvent être soit statistiques (imputation moyenne/mode), soit des techniques d'apprentissage automatique (imputation KNN).

K

K-Means

K-Means est l'algorithme de regroupement le plus répandu. Il identifie K centres de regroupement (appelés centroïdes) avec des coordonnées provisoires dans les données et assigne itérativement chaque observation à l'un des centroïdes en fonction de ses caractéristiques jusqu'à ce que les centroïdes convergent. Les points de données sont similaires à l'intérieur d'une grappe et différents des points de données des autres grappes.

K-Voisins les plus proches (KNN)

Les K-voisins les plus proches sont des algorithmes d'apprentissage supervisé qui classent les observations en fonction de leur similarité avec leurs voisins les plus proches. Les paramètres les plus importants de KNN qui peuvent être réglés sont le nombre de voisins les plus proches et la métrique de distance (Minkowski, Euclide, Manhattan, etc.).

L

Algèbre linéaire

L'algèbre linéaire est une branche des mathématiques qui s'intéresse aux systèmes linéaires : lignes, plans, espaces vectoriels, matrices et opérations sur ces systèmes, telles que l'addition ou la multiplication. L'algèbre linéaire est très utile en science des données et en apprentissage automatique, car les ensembles de données et de nombreux modèles d'apprentissage automatique peuvent être représentés sous forme de matrice.

Régression linéaire

La régression linéaire est un algorithme de régression qui permet de modéliser une relation linéaire entre une variable cible continue et une ou plusieurs caractéristiques continues. Un exemple typique de science des données utilisant la régression linéaire est la prédiction des prix en fonction de divers attributs d'entrée.

Régression logistique 

La régression logistique est un algorithme de régression qui utilise une fonction logistique sur les caractéristiques d'entrée pour prédire la probabilité de classe ou directement l'étiquette de classe pour la variable cible. Dans le second cas, le résultat représente un ensemble de catégories au lieu de valeurs continues, ce qui signifie que la régression logistique agit ici comme une technique de classification. Un cas typique d'utilisation de la régression logistique en science des données est la prédiction de la probabilité de désabonnement des clients.

M

Apprentissage machine (ML)

L'apprentissage automatique est une branche de l'intelligence artificielle (IA) qui fournit un ensemble d'algorithmes conçus pour apprendre des modèles et des tendances à partir de données historiques. L'objectif de la ML est de prédire les résultats futurs et de généraliser au-delà des points de données de l'ensemble d'apprentissage sans être explicitement programmé. Il existe deux principaux types d'algorithmes d'apprentissage automatique : supervisé et non supervisé, chacun représenté par de nombreuses techniques applicables à différents cas d'utilisation.

Moyenne

La moyenne est la valeur moyenne arithmétique d'un ensemble de nombres, c'est-à-dire la somme de toutes les valeurs divisée par le nombre de valeurs. Elle est généralement utilisée avec d'autres statistiques pour obtenir une compréhension globale de l'ensemble des données.

Erreur absolue moyenne (MAE)

L'erreur absolue moyenne (MAE) est la moyenne arithmétique de toutes les erreurs absolues des valeurs prédites par rapport aux valeurs réelles.

Erreur quadratique moyenne (EQM)

L'erreur quadratique moyenne (EQM) est la moyenne arithmétique des carrés de toutes les erreurs des valeurs prédites par rapport aux valeurs réelles.

Médiane

La médiane est la valeur centrale d'un ensemble de nombres triés par ordre croissant ou décroissant. Si l'ensemble comporte un nombre pair de valeurs, la médiane est la moyenne arithmétique des deux valeurs médianes. La médiane est généralement utilisée avec d'autres statistiques pour obtenir une compréhension globale de l'ensemble des données et est particulièrement utile pour détecter d'éventuelles valeurs aberrantes.

Mode

Le mode est la (ou les) valeur(s) la (ou les) plus fréquente(s) dans un ensemble de données.

Modèle Tuning

La mise au point du modèle est le processus d'ajustement des hyperparamètres afin de maximiser la précision du modèle sans le suradapter.

Modélisation à plusieurs variables

La modélisation multivariée est le processus de modélisation de la relation entre plusieurs variables (prédicteurs) définies lors de l'étape de sélection des caractéristiques et la variable cible.

N

Naive Bayes

Naive Bayes est un groupe d'algorithmes de classification basés sur le théorème de Bayes et une hypothèse d'indépendance entre les caractéristiques utilisées dans le classificateur. Même si, en réalité, les caractéristiques ne sont pas toujours indépendantes, les algorithmes de Naive Bayes peuvent être appliqués avec succès à divers cas d'utilisation de la science des données, tels que le filtrage des spams ou l'analyse des sentiments.

Traitement du langage naturel (NLP)

Le traitement du langage naturel (TLN) est une branche de l'informatique qui vise à permettre aux applications informatiques de comprendre et d'analyser le langage humain écrit ou parlé. Les techniques NLP prennent en entrée des données textuelles, généralement non structurées, les convertissent en une forme structurée, recherchent des modèles linguistiques et contextuels, les catégorisent et en extraient des informations précieuses. Le NLP consiste également à tirer parti de l'apprentissage automatique et de l'apprentissage profond pour générer du langage, le catégoriser et effectuer d'autres tâches cognitives à l'aide du langage. Les chatbots, les convertisseurs de parole en texte, l'analyse des sentiments et la traduction automatique sont autant d'exemples d'applications NLP.

Normalisation

La normalisation consiste à redimensionner les données de manière à ce que tous les attributs aient la même échelle. La normalisation est nécessaire pour effectuer une comparaison significative entre les attributs et est également requise pour certains algorithmes d'apprentissage automatique.

NoSQL 

NoSQL signifie "not only SQL" (pas seulement SQL). Système de gestion de base de données utilisé pour le stockage et l'extraction de bases de données non relationnelles (c'est-à-dire non tabulaires). Les bases de données de graphes, de documents et de valeurs clés sont des exemples de modèles de données non relationnels. Les systèmes NoSQL bénéficient d'une grande flexibilité et d'une vitesse opérationnelle élevée, ainsi que de la possibilité d'être mis à l'échelle sur de nombreux serveurs".

Hypothèse nulle 

L'hypothèse nulle est un type d'hypothèse qui énonce le contraire de l'hypothèse alternative à vérifier, c'est-à-dire qu'il n'existe aucune relation statistique significative entre les deux variables et que les observations sont toutes basées sur le hasard. Une hypothèse nulle peut être rejetée ou confirmée lors d'une expérience statistique.

O

Source ouverte 

Le terme "open source" fait référence à des logiciels et des ressources sous licence libre qui peuvent être modifiés et partagés. Les outils à code source ouvert facilitent la collaboration entre les utilisateurs et sont généralement plus stables, car les chercheurs peuvent ajouter de nouvelles fonctionnalités utiles ou corriger les problèmes techniques et les bogues signalés par la communauté.

Variable ordinale 

Une variable ordinale est une variable qui peut avoir une valeur parmi un nombre limité de valeurs possibles, avec un ordre intrinsèque. Un exemple serait une colonne de réponses à une enquête où les réponses sont classées par ordre d'intensité (par exemple, "Pas du tout d'accord", "Pas d'accord", "Neutre", "D'accord" ou "Tout à fait d'accord").

Valeur aberrante

Une valeur aberrante est une valeur anormale dans un ensemble de données qui s'écarte considérablement du reste des observations. Les valeurs aberrantes peuvent être la preuve d'une erreur de mesure ou d'un événement extraordinaire.

Surajustement

On parle de surajustement lorsqu'un modèle apprend trop d'informations à partir de l'ensemble d'apprentissage, y compris le bruit potentiel et les valeurs aberrantes. En conséquence, il devient trop complexe, trop conditionné par l'ensemble d'apprentissage particulier, et ne donne pas de résultats satisfaisants sur des données non vues. Le surajustement entraîne une variance élevée dans le compromis biais-variance

P

Paramètres 

En programmation et en science des données, un paramètre est une variable nommée transmise à une fonction. Dans l'apprentissage automatique, les paramètres sont un composant interne d'un algorithme à apprendre à partir des données. Certains algorithmes d'apprentissage automatique sont paramétriques avec un ensemble fixe de paramètres (par exemple, les régressions linéaires et logistiques), tandis que d'autres sont non paramétriques (par exemple, les k-voisins les plus proches).

Précision 

La précision est une mesure d'évaluation utilisée pour estimer les performances d'un modèle d'apprentissage automatique. Elle représente le rapport entre le nombre de cas positifs correctement prédits et le nombre total de cas positifs prédits.

Analyse prédictive

L'analyse prédictive est le processus d'analyse des données historiques à l'aide de divers outils d'analyse statistique, d'exploration de données, de visualisation de données et d'apprentissage automatique, afin de faire des prédictions sur les événements futurs d'une entreprise particulière.

Analyse en composantes principales (ACP)

L'analyse en composantes principales (ACP) est une technique statistique d'analyse factorielle et de réduction de la dimensionnalité qui transforme un ensemble de caractéristiques initiales éventuellement corrélées en un ensemble plus petit de caractéristiques linéairement non corrélées appelées composantes principales. De cette manière, l'ACP préserve autant que possible la variance de l'ensemble de données, tout en minimisant le nombre de caractéristiques. 

Python

Python est un langage de programmation de haut niveau à code source ouvert, orienté objet. Python est très populaire dans le domaine de la science des données, mais aussi largement utilisé pour la programmation à usage général en informatique. Il est intuitivement compréhensible et facile à apprendre et à utiliser, tout en restant une source très puissante pour résoudre des problèmes complexes. Python fournit une vaste bibliothèque standard et de nombreux modules supplémentaires utiles, et est constamment développé, amélioré et étendu.

R

R

R est un langage de programmation populaire et un logiciel libre largement utilisé pour résoudre les problèmes de science des données et d'apprentissage automatique, particulièrement célèbre pour sa puissance de calcul statistique et ses impressionnantes solutions de visualisation des données. Il comprend de nombreux outils et paquets de science des données, peut être utilisé dans de nombreux systèmes d'exploitation et dispose d'une forte communauté en ligne.

Forêt aléatoire

La forêt aléatoire est un algorithme d'apprentissage supervisé utilisé pour les problèmes de régression ou de classification. La forêt aléatoire combine les résultats de plusieurs arbres de décision en un seul modèle. Les prédictions d'une forêt aléatoire représentent essentiellement le résultat moyen de tous les arbres de décision, et cet algorithme fournit donc des résultats plus précis qu'un seul arbre de décision.

Rappel 

Le rappel est une mesure d'évaluation utilisée pour estimer les performances d'un modèle d'apprentissage automatique. Il représente le rapport entre le nombre de cas positifs correctement prédits et le nombre total de cas positifs réels.

Régression 

La régression est un problème d'apprentissage supervisé dans lequel il est nécessaire de prédire des résultats continus sur la base de caractéristiques d'entrée. Un modèle de régression apprend la relation entre une ou plusieurs caractéristiques indépendantes et la variable cible, puis utilise la fonction établie pour prédire des données inédites. Les exemples d'algorithmes de régression sont la régression linéaire et la régression par crête. Un problème de régression typique est la prédiction des prix.

Apprentissage par renforcement (RL)

L'apprentissage par renforcement (AR) est une branche autonome de l'apprentissage automatique (ni supervisé ni non supervisé) dans laquelle un algorithme apprend progressivement en interagissant avec un environnement. Le RL prend des décisions basées sur son expérience passée concernant les actions susceptibles de le rapprocher d'un objectif donné. En recevant des récompenses pour les actions correctes et des pénalités pour les actions erronées, l'algorithme trouve la stratégie optimale pour maximiser ses performances. Parmi les exemples d'algorithmes RL, on peut citer les systèmes d'apprentissage automatique de jeux tels que les moteurs d'échecs et les agents de jeux vidéo.

Base de données relationnelle

Une base de données relationnelle est un type de base de données qui stocke des données dans plusieurs tableaux reliés entre eux par des identifiants uniques (clés) à partir desquels les données peuvent être consultées, extraites, résumées ou réassemblées de différentes manières.

Erreur quadratique moyenne (RMSE)

L'erreur quadratique moyenne (RMSE) est la racine carrée de l'erreur quadratique moyenne. Cette mesure d'évaluation est plus intuitive que l'EQM car le résultat peut être compris plus facilement, en utilisant les mêmes unités de mesure que les données originales.

S

Erreur d'échantillonnage

L'erreur d'échantillonnage est la différence statistique entre la population entière des données et son sous-ensemble (un échantillon), due au fait que l'échantillon n'inclut pas tous les éléments de la population entière.

SQL

SQL (structured query language) est un langage de programmation conçu pour interagir avec les systèmes de gestion de bases de données relationnelles (SGBDR). SQL a plusieurs variantes, dont SQLite, PostgreSQL et MySQL. Certains d'entre eux sont gratuits et libres. Toutes les variantes ont une syntaxe assez similaire, avec des variations mineures dans les fonctionnalités additionnelles.

Écart-type

L'écart-type est la racine carrée de la variance d'une population. L'écart-type indique le degré de dispersion des valeurs et est plus intuitif que la variance car il est exprimé dans les mêmes unités de mesure que les données.

Apprentissage supervisé

L'apprentissage supervisé est une branche de l'apprentissage automatique qui s'intéresse à l'apprentissage d'un modèle sur un ensemble de données historiques étiquetées. L'apprentissage supervisé apprend la relation entre les entrées et les sorties et mesure ensuite la précision avec laquelle il prédit les sorties pour un ensemble de tests avec les sorties réelles connues. Il peut ainsi être utilisé ultérieurement pour faire des prédictions sur des données entièrement nouvelles. Les algorithmes d'apprentissage supervisé comprennent les régressions linéaires et logistiques, les arbres de décision et les SVM. Parmi les tâches courantes, citons la prévision des prix de l'immobilier et la classification des messages comme spam ou ham.

SVM

Le SVM (Support Vector Machine) est un algorithme d'apprentissage supervisé utilisé principalement pour les problèmes de classification, mais aussi de régression. Dans un problème de classification, le SVM fournit un hyperplan optimal qui sépare les observations des deux classes (dans le cas d'une classification multiclasse, l'algorithme décompose le problème en un ensemble de problèmes binaires). Dans un problème de régression, le SVM fournit l'hyperplan le mieux adapté à l'intérieur d'un seuil défini.

Données synthétiques

Les données synthétiques sont des données créées artificiellement. Les données synthétiques reflètent généralement les propriétés statistiques de l'ensemble de données initial. Elles peuvent donc être utilisées dans des domaines où la confidentialité est élevée, tels que la banque et les soins de santé, ou pour compléter un ensemble de données existant avec des observations de données supplémentaires statistiquement représentatives.

T

Variable cible

Une variable cible (également appelée variable dépendante) est la variable à prédire dans un algorithme d'apprentissage automatique en utilisant des caractéristiques. Par exemple, si nous prédisons la probabilité de diabète en utilisant la taille, le poids et la consommation de sucre, le statut de diabète est la variable cible que nous voulons prédire.

Ensemble de tests

Un ensemble de test est un sous-ensemble des données disponibles isolées avant la construction d'un modèle, généralement entre 20 et 30 % de l'ensemble des données. Les ensembles de test sont utilisés pour évaluer la précision des modèles ajustés sur un ensemble d'apprentissage.

Séries chronologiques

Une série chronologique est une séquence d'observations d'une variable prises à différents moments et triées dans l'ordre chronologique. En général, les mesures de séries temporelles sont prises à des points successifs, également espacés dans le temps. Les cours de la bourse ou la température sur une certaine période sont des exemples de séries chronologiques.

Ensemble de formation

Un ensemble d'entraînement est un sous-ensemble des données disponibles isolées avant la construction d'un modèle, généralement de 70 à 80 % de l'ensemble des données. Un ensemble d'apprentissage est utilisé pour adapter le modèle qui sera ensuite testé sur l'ensemble d'essai.

Vrai négatif (TN)

Un vrai négatif (TN) est un résultat pour lequel le modèle prédit correctement la classe négative pour une variable cible binaire (c'est-à-dire qu'il prédit "Faux" pour une étiquette réelle de Faux).

Vrai positif (TP)

Un vrai positif (TP) est un résultat pour lequel le modèle prédit correctement la classe positive pour une variable cible binaire (c'est-à-dire qu'il prédit "Vrai" pour une étiquette réelle de Vrai).

U

Sous-adaptation

Il y a sous-adaptation lorsqu'un modèle n'est pas en mesure de détecter les modèles de l'ensemble d'apprentissage parce qu'il a été construit à partir d'informations insuffisantes. Par conséquent, le modèle est trop simple et ne peut pas donner de bons résultats sur des données inédites, ni sur l'ensemble d'apprentissage lui-même. Les modèles sous-adaptés présentent un biais important. 

Modélisation univariée

La modélisation univariée est le processus de modélisation de la relation entre une seule variable (un prédicteur) et la variable cible. La modélisation univariée est généralement utilisée pour les séries temporelles.

Données non structurées

Les données non structurées sont des données qui ne correspondent pas à une structure de données prédéfinie, telle que la structure ligne-colonne typique d'une base de données. Les images, les courriers électroniques, les documents textuels, les vidéos et les fichiers audio sont des exemples de données de ce type.

Apprentissage non supervisé 

L'apprentissage non supervisé est une classe d'algorithmes d'apprentissage automatique qui apprennent la structure sous-jacente d'un ensemble de données sans qu'une variable cible ne leur soit fournie. L'apprentissage non supervisé est utilisé pour découvrir des modèles communs dans les données, regrouper les valeurs en fonction de leurs attributs, puis faire des prédictions sur des données non vues. L'algorithme d'apprentissage non supervisé le plus courant est celui des k-moyennes. Des exemples de tâches communes sont la détection d'anomalies et la segmentation de la clientèle sur la base de caractéristiques communes.

V

Variance 

La variance est la différence moyenne au carré entre les valeurs individuelles et la moyenne de l'ensemble des valeurs en mathématiques et en statistiques. En d'autres termes, la variance montre à quel point les valeurs sont dispersées. Dans l'apprentissage automatique, la variance est une erreur causée par la sensibilité d'un modèle à de petites variations dans l'ensemble d'apprentissage. Une variance élevée reflète une tendance du modèle à apprendre des bruits aléatoires à partir des caractéristiques d'entrée, ce qui entraîne un surajustement du modèle.

W

Récupération de données sur le Web

Le web scraping est le processus d'extraction de données spécifiques à partir de sites web en vue d'une utilisation ultérieure. Le web scraping peut être réalisé automatiquement en écrivant un programme pour capturer les informations nécessaires à partir d'un site web.

Z

Z-Score 

Le score Z (également appelé score normalisé, score standard ou score normal) est le nombre d'unités d'écart type par lequel la valeur d'une observation de données est supérieure ou inférieure à la valeur moyenne de l'ensemble des valeurs. Un score z égal à 0 signifie que l'observation des données est proche de la moyenne.

Sujets