Statistique descriptive (moyenne, médiane, écart-type)

Probabilités et statistiques — Première Tronc Commun

Statistique descriptive (moyenne, médiane, écart-type)

Introduction

La statistique descriptive permet de résumer et d'analyser un ensemble de données numériques. Les indicateurs principaux sont la moyenne (tendance centrale), la médiane (valeur centrale) et l'écart-type (dispersion). Cette leçon vous permettra de calculer et interpréter ces indicateurs.


1. Moyenne arithmétique

La moyenne est l'indicateur de tendance centrale le plus utilisé.

Définition : Pour une série de n valeurs x_1, x_2, , x_n, la moyenne arithmétique est :

[formule]

Exemple : Les notes d'un élève sur 5 devoirs sont : 12, 15, 10, 14, 13.

La moyenne est :

[formule]

Moyenne pondérée : Quand les valeurs x_i apparaissent avec des effectifs n_i (ou des fréquences f_i), on utilise la moyenne pondérée :

[formule]

où f_i = n_i{N} est la fréquence de la valeur x_i et N est l'effectif total.

Exemple avec effectifs : Voici les notes d'une classe :

Note 8 10 12 14 16
Effectif 2 5 8 4 1

La moyenne est :

[formule]

[formule]


2. Médiane

La médiane est la valeur qui partage la série en deux parties de même effectif.

Définition : La médiane M_e d'une série statistique est la valeur qui sépare la série en deux parties de même effectif :

  • 50 % des valeurs sont inférieures ou égales à M_e
  • 50 % des valeurs sont supérieures ou égales à M_e

Méthode de calcul : Pour calculer la médiane :

  1. Ranger les valeurs par ordre croissant
  2. Si l'effectif n est impair : M_e est la valeur du rang n+1{2}
  3. Si l'effectif n est pair : M_e est la moyenne des valeurs aux rangs n{2} et n{2}+1

Exemple 1 : effectif impair : Série : 12, 15, 10, 14, 13

Étape 1 : On range : 10, 12, 13, 14, 15

Étape 2 : n = 5 (impair), donc M_e est la valeur au rang 5+1{2} = 3

Résultat : M_e = 13

Exemple 2 : effectif pair : Série : 8, 12, 15, 10, 14, 13

Étape 1 : On range : 8, 10, 12, 13, 14, 15

Étape 2 : n = 6 (pair), donc M_e est la moyenne des valeurs aux rangs 6{2} = 3 et 6{2}+1 = 4

Résultat : M_e = 12 + 13{2} = 12{,}5

Avantage de la médiane : La médiane est robuste aux valeurs extrêmes (outliers). Contrairement à la moyenne, elle n'est pas influencée par des valeurs très différentes du reste de la série.


3. Quartiles

Les quartiles divisent la série en quatre parties égales.

Définition : Les quartiles d'une série statistique sont trois valeurs qui la divisent en quatre parties de même effectif :

  • Premier quartile Q_1 : 25 % des valeurs sont inférieures ou égales à Q_1
  • Deuxième quartile Q_2 : C'est la médiane (50 %)
  • Troisième quartile Q_3 : 75 % des valeurs sont inférieures ou égales à Q_3

Méthode : Pour calculer les quartiles :

  1. Calculer la médiane Q_2 = M_e
  2. Q_1 est la médiane de la première moitié (valeurs Q_2)
  3. Q_3 est la médiane de la deuxième moitié (valeurs Q_2)

Exemple : Série : 5, 8, 10, 12, 13, 15, 18, 20, 22, 25

Médiane : Q_2 = 13 + 15{2} = 14

Premier quartile : Médiane de {5, 8, 10, 12, 13} → Q_1 = 10

Troisième quartile : Médiane de {15, 18, 20, 22, 25} → Q_3 = 20

Écart interquartile : Q_3 - Q_1 = 20 - 10 = 10


4. Variance et écart-type

La variance et l'écart-type mesurent la dispersion des données autour de la moyenne.

Définition : Pour une série de n valeurs x_1, x_2, , x_n de moyenne x, la variance est :

[formule]

L'écart-type est la racine carrée de la variance :

[formule]

Formule développée : On peut aussi calculer la variance avec la formule :

[formule]

où x^2 = 1{n} _{i=1}^{n} x_i^2 est la moyenne des carrés.

Exemple : Série : 10, 12, 13, 14, 16

Moyenne : x = 10 + 12 + 13 + 14 + 16{5} = 13

Variance : [formule]

[formule]

Écart-type : = 4 = 2

Interprétation :

  • Écart-type petit : Les données sont concentrées autour de la moyenne (série homogène)
  • Écart-type grand : Les données sont dispersées (série hétérogène)

5. Variance et écart-type avec effectifs

Quand les données sont groupées avec des effectifs, on utilise la formule pondérée :

Formule pondérée : Pour une série avec valeurs x_i et effectifs n_i :

[formule]

où f_i = n_i{N} est la fréquence.

Exemple : Reprenons l'exemple des notes :

Note x_i 8 10 12 14 16
Effectif n_i 2 5 8 4 1
Fréquence f_i 0,1 0,25 0,4 0,2 0,05

On avait x = 11{,}7.

Moyenne des carrés : x^2 = 0{,}1 64 + 0{,}25 100 + 0{,}4 144 + 0{,}2 196 + 0{,}05 256

[formule]

Variance : V = 141 - (11{,}7)^2 = 141 - 136{,}89 = 4{,}11

Écart-type : = 4{,11} 2{,}03


6. Comparaison moyenne et médiane

La moyenne et la médiane donnent des informations complémentaires :

Propriétés :

  • Moyenne : Sensible aux valeurs extrêmes, donne le "centre de gravité"
  • Médiane : Robuste aux valeurs extrêmes, donne la valeur "centrale"

Si la moyenne est supérieure à la médiane, la distribution est étalée vers les grandes valeurs (asymétrie positive).

Si la moyenne est inférieure à la médiane, la distribution est étalée vers les petites valeurs (asymétrie négative).

Exemple : Série A : 10, 12, 13, 14, 16

  • Moyenne : 13
  • Médiane : 13
  • Distribution symétrique

Série B : 10, 12, 13, 14, 50

  • Moyenne : 19,8
  • Médiane : 13
  • Distribution étalée vers les grandes valeurs (valeur extrême 50)

7. Utilisation pratique

Ces indicateurs sont utilisés pour :

Applications :

  1. Comparer deux séries : Comparer les moyennes et écarts-types
  2. Détecter des valeurs aberrantes : Valeurs très éloignées de la moyenne
  3. Résumer une série : Donner une vue d'ensemble rapide
  4. Prendre des décisions : Basées sur les tendances centrales et la dispersion

Exemple concret : Deux classes ont les résultats suivants :

Classe A : Moyenne = 12, Écart-type = 2 Classe B : Moyenne = 12, Écart-type = 4

Les deux classes ont la même moyenne, mais la classe B a un écart-type plus grand. Cela signifie que les notes de la classe B sont plus dispersées : il y a à la fois de très bonnes et de très mauvaises notes, alors que la classe A est plus homogène.


À retenir

Résumé :

  1. Moyenne : x = 1{n} x_i (tendance centrale)

  2. Médiane : Valeur centrale (robuste aux valeurs extrêmes)

  3. Quartiles : Q_1, Q_2 (médiane), Q_3 divisent la série en 4

  4. Variance : V = 1{n} (x_i - x)^2 (mesure de dispersion)

  5. Écart-type : = V (même unité que les données)

  6. Comparaison : Moyenne sensible aux valeurs extrêmes, médiane robuste

Conseil : Pour analyser une série statistique :

  1. Calculer la moyenne et la médiane
  2. Calculer l'écart-type
  3. Comparer moyenne et médiane pour détecter une asymétrie
  4. Interpréter les résultats dans le contexte