Accéder au contenu principal

T-test vs. Test Z : Quand utiliser chacun d'entre eux ?

Utilisez les tests t lorsqu'il s'agit de petits échantillons ou d'une variance inconnue, et les tests Z lorsque les échantillons sont grands et que la variance est connue.
Actualisé 16 janv. 2025  · 10 min de lecture

En tant que professionnel de la science des données, vous devez souvent analyser, tester et établir des relations entre les variables d'un ensemble de données afin de tirer des conclusions significatives. Un concept appelé test d'hypothèse, ainsi que plusieurs tests, dont les tests t et les tests z, sont quelques-uns des outils couramment utilisés en analyse pour établir des relations entre les points de données. 

Ce tutoriel vous apprendra la différence entre un test t et un test Z à l'aide d'exemples réels. Je fournirai également des ressources supplémentaires pour un apprentissage plus approfondi.

Un résumé rapide : tests t vs. Z-tests

Le choix entre un test t et un test Z peut être résumé par les lignes directrices suivantes :

  • Utilisez un test t : Lorsque la taille de l'échantillon est faible (n < 30) et/ou que la variance de la population est inconnue.
  • Utilisez un test Z : Lorsque la taille de l'échantillon est importante (n ≥ 30) et que la variance de la population est connue.

Dans les deux cas, nous nous attendons à ce que les données soient normalement distribuées. Lisez la suite pour découvrir en détail chacun des tests et leurs différences. Tout d'abord, nous commencerons par une brève introduction aux tests d'hypothèses.

Introduction aux tests d'hypothèses

Le test d'hypothèse est une méthode statistique fondamentale qui permet de déduire les paramètres d'une population à partir de données d'un échantillon. Il s'agit d'une approche structurée permettant d'évaluer les affirmations ou les hypothèses concernant une population à l'aide de preuves empiriques.

Les tests d'hypothèses reposent sur deux affirmations complémentaires :

  • L'hypothèse nulle (H₀) est une déclaration d'absence d'effet, de différence ou de relation. Il représente le statu quo ou la compréhension actuelle.
  • L'hypothèse alternative (H₁) est une affirmation qui contredit l'hypothèse nulle. Il représente l'affirmation ou la nouvelle compréhension que le chercheur veut prouver.

Supposons, par exemple, que vous souhaitiez déterminer si une nouvelle méthode d'enseignement améliore les résultats des élèves aux tests. Vous pourriez formuler les hypothèses suivantes :

  • Hypothèse nulle (H₀): La nouvelle méthode d'enseignement n'a aucun effet sur les résultats des élèves aux tests.
  • Hypothèse alternative (H₁): La nouvelle méthode d'enseignement améliore les résultats des élèves aux tests.

Le test d'hypothèse consiste à collecter des données sur un échantillon, à calculer les statistiques du test et à déterminer la probabilité d'observer ces résultats si l'hypothèse nulle est vraie. Sur la base de cette probabilité, nous pouvons décider de rejeter l'hypothèse nulle en faveur de l'alternative ou de ne pas la rejeter.

En fonction des types de données et des questions de recherche testées, plusieurs tests statistiques sont disponibles pour tester les hypothèses. Dans ce tutoriel, nous nous concentrerons sur le test t et le test Z.

Qu'est-ce qu'un test t ?

Un test t est un test statistique utilisé pour déterminer s'il existe une différence significative entre les moyennes de deux groupes ou entre la moyenne d'un échantillon et une valeur connue. Elle est particulièrement utile lorsqu'il s'agit d'échantillons de petite taille ou lorsque l'écart-type de la population n'est pas connu. 

La statistique du test t pour un test t à un échantillon est calculée à l'aide de la formule suivante :

t-Test Equation

équation t-test. Image par l'auteur.

où :

  • Xˉ est la moyenne de l'échantillon
  • μ est la moyenne de la population (ou la moyenne du groupe de comparaison).
  • s est l'écart-type de l'échantillon, et 
  • n est la taille de l'échantillon.

Types de tests t

Il existe trois principaux types de tests t. Chacun compare les moyens dans des conditions différentes :

  • Test t à un échantillon: Ce test compare la moyenne d'un échantillon unique à une valeur connue ou à la moyenne de la population. Il détermine si la moyenne de l'échantillon s'écarte de manière significative d'un point de référence spécifique. Par exemple, nous pouvons utiliser un test t à un échantillon pour évaluer si le score moyen d'une petite classe diffère de la moyenne nationale.
  • Test t indépendant à deux échantillons: Ce test compare les moyennes de deux groupes indépendants afin de déterminer s'il existe une différence statistiquement significative entre eux. Elle est couramment utilisée dans les expériences où deux groupes sont soumis à des traitements ou à des conditions différents. Par exemple, nous pourrions utiliser un test t indépendant à deux échantillons pour comparer les résultats obtenus par des élèves ayant suivi deux méthodes d'enseignement différentes, afin de déterminer si l'une d'entre elles est plus efficace.
  • Test t par paires: Ce test permet de comparer les moyennes d'un même groupe à des moments différents ou dans des conditions différentes. Elle évalue s'il y a un changement significatif au sein d'un même groupe après une intervention ou au fil du temps. Il s'agit par exemple de mesurer les performances des élèves avant et après la mise en œuvre d'une nouvelle stratégie d'enseignement afin d'en évaluer l'impact.

Hypothèses du test t

Le test t repose sur certaines hypothèses pour fournir des résultats valides :

  • Normalité des données: Le test t suppose que les données de chaque groupe sont approximativement distribuées normalement. Ceci est particulièrement important lorsqu'il s'agit d'échantillons de petite taille. Si les données ne sont pas normalement distribuées, les résultats du test t peuvent ne pas être fiables.
  • Homogénéité des variances: Pour un test t indépendant à deux échantillons, les variances des deux groupes comparés sont supposées égales. Cette hypothèse garantit que le test t tient correctement compte de la variabilité au sein de chaque groupe. Si les variances ne sont pas égales, cela peut affecter la précision du test.
  • Indépendance des observations: Les observations au sein de chaque groupe doivent être indépendantes. Cela signifie que la valeur d'une observation ne doit pas influencer ou être liée à la valeur d'une autre observation. La violation de cette hypothèse peut conduire à des conclusions erronées.

Il est important de vérifier ces hypothèses avant d'appliquer le test t dans toute analyse afin de garantir la validité des résultats. Lisez notre tutoriel sur les tests t dans R ou notre introduction aux tests t dans Python pour apprendre à réaliser des tests t dans R ou Python. 

Qu'est-ce qu'un test Z ?

Le test Z est un test statistique utilisé pour déterminer s'il existe une différence significative entre la moyenne de l'échantillon et la moyenne de la population ou entre les moyennes de deux groupes lorsque la variance de la population est connue et que la taille de l'échantillon est importante.

Elle est principalement utilisée lorsque la taille de l'échantillon est supérieure à 30, ce qui permet d'utiliser la distribution normale pour approximer la distribution de la statistique du test.

La statistique du test Z pour un test Z à un échantillon est calculée à l'aide de la formule suivante :

Z-Test Equation

Équation du test Z. Image par l'auteur.

où : 

  • Xˉ est la moyenne de l'échantillon, 
  • μ est la moyenne de la population, 
  • σ est l'écart-type de la population, et 
  • n est la taille de l'échantillon.

Types de tests Z

Il existe trois types principaux de tests Z :

  • Test Z à un échantillon: Ce test compare la moyenne d'un échantillon unique à la moyenne d'une population connue. Elle est utilisée lorsque vous souhaitez évaluer si la moyenne de l'échantillon s'écarte significativement de la moyenne de la population, en supposant que la variance de la population est connue. Par exemple, un test z à un échantillon peut être utilisé pour déterminer si la taille moyenne d'un groupe de plus de 30 personnes diffère de la taille moyenne nationale connue.
  • Test Z à deux échantillons: Ce test compare les moyennes de deux échantillons indépendants afin de déterminer s'il existe une différence significative entre eux. Elle est utilisée lorsque les deux échantillons sont importants et que les variances de la population sont connues. Il s'agit par exemple de comparer les résultats moyens des élèves de deux écoles différentes pour voir s'il existe une différence significative de performance entre les deux écoles.
  • Proportion Z-test: Ce test compare la proportion d'une certaine caractéristique dans un échantillon à une proportion connue de la population ou entre deux proportions de l'échantillon. Elle permet d'évaluer si la proportion observée dans l'échantillon diffère significativement de celle attendue sur la base de la proportion de la population. Par exemple, un test Z de proportion peut être utilisé pour comparer la proportion d'électeurs favorables à un candidat particulier dans un échantillon à la proportion observée lors d'élections précédentes.

Il existe d'autres variantes de ce test, telles que le test Z par paires, le test Z pour les coefficients de régression et le test Z pour les différences de moyennes.

Hypothèses du test Z

Le test Z repose sur certaines hypothèses pour fournir des résultats valides :

  • Variance connue de la population: Le test Z suppose que la variance de la population est connue. Il s'agit d'une distinction essentielle par rapport au test t, pour lequel la variance de la population est généralement inconnue. La variance connue permet d'utiliser la distribution z pour évaluer la signification de la statistique du test.
  • Échantillon de grande taille: Le test Z suppose un échantillon de grande taille, généralement supérieur à 30. Avec des échantillons plus importants, la distribution d'échantillonnage de la moyenne de l'échantillon se rapproche d'une distribution normale, même si les données originales ne sont pas distribuées normalement, conformément au théorème de la limite centrale.
  • Distribution normale de la population: Les données sont supposées provenir d'une population normalement distribuée. Cette hypothèse est moins critique pour les grands échantillons, mais reste importante lorsque la taille de l'échantillon est modérée.

Principales différences entre les tests t et les tests Z

Le test t et le test Z sont utilisés pour comparer les statistiques d'un échantillon aux paramètres d'une population, mais ils diffèrent dans leurs hypothèses sous-jacentes, leurs applications et les conditions dans lesquelles ils sont les plus appropriés. Analysons et comprenons les différences entre les deux tests :

Considérations sur la taille de l'échantillon

  • Test t: Le test t est généralement utilisé lorsque la taille de l'échantillon est faible, généralement inférieure à 30. Il est conçu pour être robuste lorsque la taille de l'échantillon n'atteint pas le seuil nécessaire à l'application du théorème de la limite centrale.
  • Z-test: Le test Z est utilisé lorsque la taille de l'échantillon est importante, généralement supérieure à 30. Dans les grands échantillons, la distribution d'échantillonnage de la moyenne est approximativement normale, ce qui justifie l'utilisation du test Z.

Connaissance de la variance de la population

  • Test t: Le test t est utilisé lorsque la variance de la population est inconnue. Au lieu de la variance de la population, la variance de l'échantillon est utilisée pour calculer la statistique du test. La distribution t, dont les queues sont plus lourdes que celles de la distribution normale, tient compte de l'incertitude supplémentaire liée à l'estimation de la variance de la population.
  • Z-test: Le test Z exige que la variance de la population soit connue. Il s'agit d'une hypothèse clé car elle permet d'utiliser la distribution normale standard pour calculer la statistique du test. Lorsque la variance de la population est connue, le test Z fournit des estimations plus précises.

Hypothèses de distribution

  • Test t: Le test t suppose que les données de chaque groupe sont approximativement distribuées normalement. Ceci est particulièrement important lorsqu'il s'agit d'échantillons de petite taille. La statistique d'un test t suit une distribution t, dont les queues sont plus larges que celles de la distribution normale. Cela tient compte de la variabilité et de l'incertitude supplémentaires lors de l'estimation de l'écart-type de la population à partir d'un petit échantillon.
  • Z-test: Le test Z suppose que les données sont normalement distribuées ou que la taille de l'échantillon est suffisamment importante pour appliquer le théorème de la limite centrale. Le théorème de la limite centrale garantit que, pour de grands échantillons, la distribution d'échantillonnage de la moyenne est approximativement normale, même si les données sous-jacentes ne sont pas parfaitement normales.

Applications pratiques et cas d'utilisation

  • Test t: Le test t est couramment utilisé dans les études sur de petits échantillons, telles que les études pilotes, où la variance de la population est inconnue. Il s'agit par exemple de comparer l'efficacité de deux traitements dans un petit groupe ou d'évaluer les changements au sein d'un même groupe au fil du temps.
  • Z-test: Le test Z est utilisé dans les études sur de grands échantillons ou lorsqu'il s'agit de populations bien établies dont la variance est connue. Elle est souvent utilisée pour le contrôle de la qualité, l'analyse des enquêtes et les études expérimentales à grande échelle.

Voici le tableau des principales différences :

Différences essentielles entre le test T et le test Z.Différences essentielles entre le test T et le test Z. Image par l'auteur.

Conclusion

Ce didacticiel vous a présenté les tests d'hypothèse et deux tests couramment utilisés : les tests-tests et les tests z. Nous avons également appris les définitions, les différents types et les hypothèses de chaque test et nous avons mieux compris leurs principales différences. Nous avons conclu quel test est le meilleur à utiliser dans quel scénario, vous permettant ainsi d'établir des relations entre les variables en toute confiance par le biais de tests d'hypothèses.

Après avoir consolidé les concepts statistiques qui sous-tendent les tests d'hypothèse dans le cadre de notre cours d'introduction aux statistiques, je vous encourage à mettre en œuvre ces concepts à l'aide de l'une des technologies les plus répandues, en consultant les ressources suivantes :

Bon apprentissage !

Devenez un scientifique ML

Améliorez vos connaissances en Python pour devenir un scientifique spécialisé dans l'apprentissage automatique.
Commencez à apprendre gratuitement

Arunn Thevapalan's photo
Author
Arunn Thevapalan
LinkedIn
Twitter

En tant que data scientist senior, je conçois, développe et déploie des solutions d'apprentissage automatique à grande échelle pour aider les entreprises à prendre de meilleures décisions basées sur les données. En tant que rédacteur spécialisé dans la science des données, je partage mes apprentissages, mes conseils de carrière et des tutoriels pratiques approfondis.

Questions fréquemment posées

Quelle est la principale différence entre un test t et un test Z ?

La principale différence est que le test t est utilisé pour les échantillons de petite taille (n <30) ou lorsque la variance de la population est inconnue et qu'il utilise la distribution t. Le test Z est utilisé pour les échantillons de grande taille ( n>30) dont la variance de population est connue et repose sur la distribution normale.

Quand dois-je utiliser un test t à un échantillon plutôt qu'un test Z ?

Utilisez un test t à un échantillon lorsque vous comparez la moyenne d'un échantillon unique à la moyenne d'une population connue et que la variance de la population est inconnue. Si la taille de l'échantillon est importante et que la variance de la population est connue, vous devriez plutôt utiliser un test Z à un échantillon.

Quel est le rôle de la distribution t dans un test t ?

La distribution t est utilisée dans un test t pour tenir compte de la variabilité et de l'incertitude supplémentaires de la statistique du test lorsque la taille de l'échantillon est faible et que la variance de la population est inconnue.

Puis-je utiliser un test Z si je ne connais pas la variance de la population ?

Non, un test Z exige que la variance de la population soit connue. Si la variance de la population n'est pas connue, vous devez utiliser un test t, qui estime la variance à partir des données de l'échantillon.

Comment déterminer s'il faut utiliser un test t par paires ou un test t indépendant à deux échantillons ?

Utilisez un test t par paires lorsque vous comparez les moyennes d'un même groupe à des moments différents ou dans des conditions différentes (par exemple, avant et après une intervention). Utilisez un test t indépendant à deux échantillons pour comparer les moyennes de deux groupes différents et non apparentés (par exemple, pour comparer les résultats de deux classes ou traitements différents).

Sujets

Apprenez avec DataCamp

cours

Introduction to Statistics

4 hr
89.1K
Learn the fundamentals of statistics, including measures of center and spread, probability distributions, and hypothesis testing with no coding involved!
Afficher les détailsRight Arrow
Commencer le cours
Voir plusRight Arrow
Apparenté

blog

Les 20 meilleures questions d'entretien pour les flocons de neige, à tous les niveaux

Vous êtes actuellement à la recherche d'un emploi qui utilise Snowflake ? Préparez-vous à répondre à ces 20 questions d'entretien sur le flocon de neige pour décrocher le poste !
Nisha Arya Ahmed's photo

Nisha Arya Ahmed

20 min

blog

Q2 2023 DataCamp Donates Digest

DataCamp Donates a offert plus de 20k bourses d'études à nos partenaires à but non lucratif au deuxième trimestre 2023. Découvrez comment des apprenants défavorisés et assidus ont transformé ces opportunités en réussites professionnelles qui ont changé leur vie.
Nathaniel Taylor-Leach's photo

Nathaniel Taylor-Leach

blog

Les 32 meilleures questions d'entretien sur AWS et leurs réponses pour 2024

Un guide complet pour explorer les questions d'entretien AWS de base, intermédiaires et avancées, ainsi que des questions basées sur des situations réelles. Il couvre tous les domaines, garantissant ainsi une stratégie de préparation bien équilibrée.
Zoumana Keita 's photo

Zoumana Keita

30 min

blog

2022-2023 Rapport annuel DataCamp Classrooms

À l'aube de la nouvelle année scolaire, DataCamp Classrooms est plus motivé que jamais pour démocratiser l'apprentissage des données, avec plus de 7 650 nouveaux Classrooms ajoutés au cours des 12 derniers mois.
Nathaniel Taylor-Leach's photo

Nathaniel Taylor-Leach

8 min

blog

Nous avons fait don de bourses DataCamp Premium à un million de personnes, et ce n'est pas fini.

Réparties entre nos deux programmes d'impact social, DataCamp Classrooms et #DCDonates, les bourses offrent un accès illimité à tout ce que DataCamp Premium a à offrir.
Nathaniel Taylor-Leach's photo

Nathaniel Taylor-Leach

blog

Célébration de Saghar Hazinyar : Une boursière de DataCamp Donates et une diplômée de Code to Inspire

Découvrez le parcours inspirant de Saghar Hazinyar, diplômée de Code to Inspire, qui a surmonté les défis en Afghanistan et s'est épanouie grâce à une bourse de DataCamp Donates.
Fereshteh Forough's photo

Fereshteh Forough

4 min

Voir plusVoir plus