Échantillonnage et intervalles de fluctuation

Introduction

L'échantillonnage est une technique fondamentale en statistique qui permet d'étudier une population en analysant seulement une partie de celle-ci, appelée échantillon. Les intervalles de fluctuation permettent de prendre des décisions fiables à partir d'échantillons. Cette leçon vous permettra de comprendre ces concepts essentiels pour l'inférence statistique.

1. Notion d'échantillon

1.1 Population et échantillon

Définition :

Population : Ensemble de tous les individus ou objets sur lesquels on souhaite obtenir des informations.
Échantillon : Sous-ensemble de la population, choisi selon une méthode précise, et sur lequel on effectue réellement l'étude.
Taille de l'échantillon : Nombre d'individus dans l'échantillon, noté n.

Exemple : Un institut de sondage veut connaître l'opinion des Français sur une réforme. La population est l'ensemble des Français (environ 67 millions). L'échantillon pourrait être un groupe de 1000 personnes interrogées. La taille de l'échantillon est n = 1000.

Attention : Pour que les résultats soient fiables, l'échantillon doit être représentatif de la population. Un échantillon biaisé donnera des conclusions erronées.

2. Proportion dans une population et fréquence dans un échantillon

2.1 Proportion réelle

Définition : Dans une population, la proportion p d'individus ayant une caractéristique donnée est :

[formule]

2.2 Fréquence observée

Définition : Dans un échantillon de taille n, la fréquence observée f (ou fréquence empirique) d'individus ayant la caractéristique est :

[formule]

Exemple : Dans une population, 40 % des individus ont une caractéristique C, donc p = 0{,}4.

On prélève un échantillon de 100 individus et on trouve 38 individus avec la caractéristique C.

La fréquence observée est : f = 38{100} = 0{,}38 = 38%.

On remarque que f p : la fréquence observée fluctue autour de la proportion réelle.

Interprétation : La fréquence observée f est une estimation de la proportion réelle p. Elle varie d'un échantillon à l'autre, mais elle "tourne autour" de p.

3. Fluctuation d'échantillonnage

3.1 Principe

Fluctuation d'échantillonnage : Si on prélève plusieurs échantillons de même taille n dans une population où la proportion d'individus ayant une caractéristique est p, les fréquences observées f varient d'un échantillon à l'autre. Cette variation s'appelle la fluctuation d'échantillonnage.

Exemple : Dans une urne contenant 40 % de boules rouges (p = 0{,}4), on effectue 5 tirages de 100 boules avec remise :

Échantillon 1 : 42 boules rouges → f_1 = 0{,}42
Échantillon 2 : 38 boules rouges → f_2 = 0{,}38
Échantillon 3 : 41 boules rouges → f_3 = 0{,}41
Échantillon 4 : 39 boules rouges → f_4 = 0{,}39
Échantillon 5 : 40 boules rouges → f_5 = 0{,}40

Les fréquences fluctuent autour de p = 0{,}4.

4. Intervalle de fluctuation

4.1 Définition

Définition : Un intervalle de fluctuation au seuil de 95 % (ou au niveau de confiance de 95 %) est un intervalle qui contient, avec une probabilité de 95 %, la fréquence observée f dans un échantillon de taille n tiré d'une population où la proportion est p.

On note cet intervalle : I = [p - 1{n} ; p + 1{n}]

Conditions d'application : Pour utiliser cette formule, il faut vérifier :

n 25
np 5
n(1-p) 5

Exemple : Dans une population, la proportion de personnes favorables à une mesure est p = 0{,}6 (60 %).

On prélève un échantillon de taille n = 100.

Vérification des conditions :

n = 100 25 ✓
np = 100 0{,}6 = 60 5 ✓
n(1-p) = 100 0{,}4 = 40 5 ✓

Calcul de l'intervalle : [formule]

[formule]

Avec 95 % de probabilité, la fréquence observée f dans un échantillon de 100 individus sera comprise entre 50 % et 70 %.

5. Prise de décision avec un intervalle de fluctuation

5.1 Principe de la prise de décision

Méthode de prise de décision : Pour tester une hypothèse sur une proportion p dans une population :

Formuler l'hypothèse : On suppose que la proportion réelle est p = p_0.
Prélever un échantillon : On prélève un échantillon de taille n et on calcule la fréquence observée f.
Calculer l'intervalle de fluctuation : On calcule I = [p_0 - 1{n} ; p_0 + 1{n}].
Prendre une décision :
- Si f I : On accepte l'hypothèse au seuil de 5 %.
- Si f I : On rejette l'hypothèse au seuil de 5 %.

Exemple : Un fabricant affirme que 80 % de ses produits sont conformes (p = 0{,}8).

Un contrôleur prélève un échantillon de 64 produits et trouve 45 produits conformes, soit f = 45{64} = 0{,}703 (70,3 %).

Vérification des conditions :

n = 64 25 ✓
np = 64 0{,}8 = 51{,}2 5 ✓
n(1-p) = 64 0{,}2 = 12{,}8 5 ✓

Calcul de l'intervalle : [formule]

[formule]

Décision : Comme f = 0{,}703 [0{,}675 ; 0{,}925], on accepte l'affirmation du fabricant au seuil de 5 %.

6. Exemples d'application

6.1 Contrôle qualité

Exemple : Une usine produit des pièces. Le fabricant affirme que moins de 5 % des pièces sont défectueuses (p < 0{,}05).

Un contrôleur prélève 200 pièces et trouve 14 pièces défectueuses, soit f = 14{200} = 0{,}07 (7 %).

Testons l'hypothèse p = 0{,}05 :

Calcul de l'intervalle : [formule]

[formule]

Comme une proportion ne peut pas être négative, on prend I = [0 ; 0{,}121].

Décision : Comme f = 0{,}07 [0 ; 0{,}121], on accepte l'hypothèse au seuil de 5 %. Cependant, f = 0{,}07 > 0{,}05, ce qui suggère que le taux réel pourrait être supérieur à 5 %.

6.2 Sondage d'opinion

Exemple : Un candidat pense avoir 55 % d'intentions de vote (p = 0{,}55).

Un sondage sur 500 personnes donne 260 personnes favorables, soit f = 260{500} = 0{,}52 (52 %).

Calcul de l'intervalle : [formule]

[formule]

Décision : Comme f = 0{,}52 [0{,}505 ; 0{,}595], on accepte l'hypothèse au seuil de 5 %. Le candidat peut être confiant dans son estimation.

7. Influence de la taille de l'échantillon

7.1 Précision et taille de l'échantillon

Influence de n : Plus la taille n de l'échantillon est grande, plus l'intervalle de fluctuation est étroit (précis).

En effet, l'amplitude de l'intervalle est 2{n}, qui diminue quand n augmente.

Exemple : Pour p = 0{,}5 :

Avec n = 100 : I = [0{,}5 - 1{10} ; 0{,}5 + 1{10}] = [0{,}4 ; 0{,}6] (amplitude = 0,2)
Avec n = 400 : I = [0{,}5 - 1{20} ; 0{,}5 + 1{20}] = [0{,}45 ; 0{,}55] (amplitude = 0,1)
Avec n = 1600 : I = [0{,}5 - 1{40} ; 0{,}5 + 1{40}] = [0{,}475 ; 0{,}525] (amplitude = 0,05)

Plus n est grand, plus l'intervalle est précis.

8. Erreurs de décision

8.1 Risques d'erreur

Attention : Même avec un intervalle de fluctuation au seuil de 95 %, il y a un risque de 5 % de prendre une mauvaise décision :

Risque de première espèce : Rejeter l'hypothèse alors qu'elle est vraie (5 % des cas).
Risque de deuxième espèce : Accepter l'hypothèse alors qu'elle est fausse.

Exemple : Si on teste p = 0{,}5 avec n = 100, l'intervalle est I = [0{,}4 ; 0{,}6].

Même si p = 0{,}5 est vrai, il y a environ 5 % de chances que la fréquence observée f soit en dehors de I, ce qui conduirait à rejeter à tort l'hypothèse.

À retenir

Résumé :

Échantillon : Sous-ensemble de la population de taille n.
Proportion réelle p : Proportion dans la population (inconnue en général).
Fréquence observée f : Proportion dans l'échantillon (connue, mais variable).
Intervalle de fluctuation : I = [p - 1{n} ; p + 1{n}] (conditions : n 25, np 5, n(1-p) 5).
Prise de décision :
- Si f I → On accepte l'hypothèse au seuil de 5 %.
- Si f I → On rejette l'hypothèse au seuil de 5 %.
Précision : Plus n est grand, plus l'intervalle est étroit.

Conseil pratique : Pour résoudre un problème d'échantillonnage :

Identifier la population, l'échantillon et la taille n.
Déterminer la proportion p (hypothèse) et la fréquence observée f.
Vérifier les conditions d'application.
Calculer l'intervalle de fluctuation.
Comparer f avec I et prendre une décision.
Interpréter le résultat dans le contexte.

Points d'attention :

Ne pas confondre intervalle de fluctuation (pour tester une hypothèse) et intervalle de confiance (pour estimer une proportion).
Toujours vérifier les conditions avant d'utiliser la formule.
Le seuil de 5 % signifie qu'il y a un risque d'erreur de 5 %.