Statistique descriptive (moyenne, médiane, écart-type)
Introduction
La statistique descriptive permet de résumer et d'analyser un ensemble de données numériques. Les indicateurs principaux sont la moyenne (tendance centrale), la médiane (valeur centrale) et l'écart-type (dispersion). Cette leçon vous permettra de calculer et interpréter ces indicateurs.
1. Moyenne arithmétique
La moyenne est l'indicateur de tendance centrale le plus utilisé.
Définition : Pour une série de n valeurs x_1, x_2, , x_n, la moyenne arithmétique est :
[formule]
Exemple : Les notes d'un élève sur 5 devoirs sont : 12, 15, 10, 14, 13.
La moyenne est :
[formule]
Moyenne pondérée : Quand les valeurs x_i apparaissent avec des effectifs n_i (ou des fréquences f_i), on utilise la moyenne pondérée :
[formule]
où f_i = n_i{N} est la fréquence de la valeur x_i et N est l'effectif total.
Exemple avec effectifs : Voici les notes d'une classe :
| Note | 8 | 10 | 12 | 14 | 16 |
|---|---|---|---|---|---|
| Effectif | 2 | 5 | 8 | 4 | 1 |
La moyenne est :
[formule]
[formule]
2. Médiane
La médiane est la valeur qui partage la série en deux parties de même effectif.
Définition : La médiane M_e d'une série statistique est la valeur qui sépare la série en deux parties de même effectif :
- 50 % des valeurs sont inférieures ou égales à M_e
- 50 % des valeurs sont supérieures ou égales à M_e
Méthode de calcul : Pour calculer la médiane :
- Ranger les valeurs par ordre croissant
- Si l'effectif n est impair : M_e est la valeur du rang n+1{2}
- Si l'effectif n est pair : M_e est la moyenne des valeurs aux rangs n{2} et n{2}+1
Exemple 1 : effectif impair : Série : 12, 15, 10, 14, 13
Étape 1 : On range : 10, 12, 13, 14, 15
Étape 2 : n = 5 (impair), donc M_e est la valeur au rang 5+1{2} = 3
Résultat : M_e = 13
Exemple 2 : effectif pair : Série : 8, 12, 15, 10, 14, 13
Étape 1 : On range : 8, 10, 12, 13, 14, 15
Étape 2 : n = 6 (pair), donc M_e est la moyenne des valeurs aux rangs 6{2} = 3 et 6{2}+1 = 4
Résultat : M_e = 12 + 13{2} = 12{,}5
Avantage de la médiane : La médiane est robuste aux valeurs extrêmes (outliers). Contrairement à la moyenne, elle n'est pas influencée par des valeurs très différentes du reste de la série.
3. Quartiles
Les quartiles divisent la série en quatre parties égales.
Définition : Les quartiles d'une série statistique sont trois valeurs qui la divisent en quatre parties de même effectif :
- Premier quartile Q_1 : 25 % des valeurs sont inférieures ou égales à Q_1
- Deuxième quartile Q_2 : C'est la médiane (50 %)
- Troisième quartile Q_3 : 75 % des valeurs sont inférieures ou égales à Q_3
Méthode : Pour calculer les quartiles :
- Calculer la médiane Q_2 = M_e
- Q_1 est la médiane de la première moitié (valeurs Q_2)
- Q_3 est la médiane de la deuxième moitié (valeurs Q_2)
Exemple : Série : 5, 8, 10, 12, 13, 15, 18, 20, 22, 25
Médiane : Q_2 = 13 + 15{2} = 14
Premier quartile : Médiane de {5, 8, 10, 12, 13} → Q_1 = 10
Troisième quartile : Médiane de {15, 18, 20, 22, 25} → Q_3 = 20
Écart interquartile : Q_3 - Q_1 = 20 - 10 = 10
4. Variance et écart-type
La variance et l'écart-type mesurent la dispersion des données autour de la moyenne.
Définition : Pour une série de n valeurs x_1, x_2, , x_n de moyenne x, la variance est :
[formule]
L'écart-type est la racine carrée de la variance :
[formule]
Formule développée : On peut aussi calculer la variance avec la formule :
[formule]
où x^2 = 1{n} _{i=1}^{n} x_i^2 est la moyenne des carrés.
Exemple : Série : 10, 12, 13, 14, 16
Moyenne : x = 10 + 12 + 13 + 14 + 16{5} = 13
Variance : [formule]
[formule]
Écart-type : = 4 = 2
Interprétation :
- Écart-type petit : Les données sont concentrées autour de la moyenne (série homogène)
- Écart-type grand : Les données sont dispersées (série hétérogène)
5. Variance et écart-type avec effectifs
Quand les données sont groupées avec des effectifs, on utilise la formule pondérée :
Formule pondérée : Pour une série avec valeurs x_i et effectifs n_i :
[formule]
où f_i = n_i{N} est la fréquence.
Exemple : Reprenons l'exemple des notes :
| Note x_i | 8 | 10 | 12 | 14 | 16 |
|---|---|---|---|---|---|
| Effectif n_i | 2 | 5 | 8 | 4 | 1 |
| Fréquence f_i | 0,1 | 0,25 | 0,4 | 0,2 | 0,05 |
On avait x = 11{,}7.
Moyenne des carrés : x^2 = 0{,}1 64 + 0{,}25 100 + 0{,}4 144 + 0{,}2 196 + 0{,}05 256
[formule]
Variance : V = 141 - (11{,}7)^2 = 141 - 136{,}89 = 4{,}11
Écart-type : = 4{,11} 2{,}03
6. Comparaison moyenne et médiane
La moyenne et la médiane donnent des informations complémentaires :
Propriétés :
- Moyenne : Sensible aux valeurs extrêmes, donne le "centre de gravité"
- Médiane : Robuste aux valeurs extrêmes, donne la valeur "centrale"
Si la moyenne est supérieure à la médiane, la distribution est étalée vers les grandes valeurs (asymétrie positive).
Si la moyenne est inférieure à la médiane, la distribution est étalée vers les petites valeurs (asymétrie négative).
Exemple : Série A : 10, 12, 13, 14, 16
- Moyenne : 13
- Médiane : 13
- Distribution symétrique
Série B : 10, 12, 13, 14, 50
- Moyenne : 19,8
- Médiane : 13
- Distribution étalée vers les grandes valeurs (valeur extrême 50)
7. Utilisation pratique
Ces indicateurs sont utilisés pour :
Applications :
- Comparer deux séries : Comparer les moyennes et écarts-types
- Détecter des valeurs aberrantes : Valeurs très éloignées de la moyenne
- Résumer une série : Donner une vue d'ensemble rapide
- Prendre des décisions : Basées sur les tendances centrales et la dispersion
Exemple concret : Deux classes ont les résultats suivants :
Classe A : Moyenne = 12, Écart-type = 2 Classe B : Moyenne = 12, Écart-type = 4
Les deux classes ont la même moyenne, mais la classe B a un écart-type plus grand. Cela signifie que les notes de la classe B sont plus dispersées : il y a à la fois de très bonnes et de très mauvaises notes, alors que la classe A est plus homogène.
À retenir
Résumé :
Moyenne : x = 1{n} x_i (tendance centrale)
Médiane : Valeur centrale (robuste aux valeurs extrêmes)
Quartiles : Q_1, Q_2 (médiane), Q_3 divisent la série en 4
Variance : V = 1{n} (x_i - x)^2 (mesure de dispersion)
Écart-type : = V (même unité que les données)
Comparaison : Moyenne sensible aux valeurs extrêmes, médiane robuste
Conseil : Pour analyser une série statistique :
- Calculer la moyenne et la médiane
- Calculer l'écart-type
- Comparer moyenne et médiane pour détecter une asymétrie
- Interpréter les résultats dans le contexte