Échantillonnage
Introduction
L'échantillonnage consiste à étudier une partie (un échantillon) d'une population pour en tirer des conclusions sur l'ensemble. C'est un outil fondamental en statistiques et en sciences.
1. Population et échantillon
Vocabulaire :
- Population : ensemble complet des individus étudiés
- Échantillon : sous-ensemble de la population, de taille n
- Proportion p : proportion d'un caractère dans la population
- Fréquence f : proportion observée dans l'échantillon
Exemple : Une usine produit des ampoules. On veut connaître la proportion p d'ampoules défectueuses.
On prélève un échantillon de n = 100 ampoules et on trouve f = 0{,}08 (8 défectueuses sur 100).
2. Fluctuation d'échantillonnage
Fluctuation : La fluctuation d'échantillonnage est le fait que la fréquence f observée dans un échantillon varie d'un échantillon à l'autre, même si la proportion p de la population reste fixe.
Observation fondamentale : Plus la taille n de l'échantillon est grande, plus la fréquence f est proche de la proportion p théorique.
C'est une conséquence de la loi des grands nombres.
Exemple : On lance une pièce équilibrée (p = 0{,}5).
- Avec n = 10 lancers, on peut obtenir f = 0{,}3 ou f = 0{,}7 (forte fluctuation)
- Avec n = 1000 lancers, f sera très proche de 0{,}5 (faible fluctuation)
3. Intervalle de fluctuation
Intervalle de fluctuation au seuil de 95% : Pour un échantillon de taille n 25 et une proportion p telle que 0{,}2 p 0{,}8, la fréquence f observée appartient, dans environ 95% des cas, à l'intervalle de fluctuation :
[formule]
Exemple : Une proportion connue est p = 0{,}4 et on prélève un échantillon de n = 100.
[formule]
On s'attend à ce que la fréquence observée soit entre 0{,}3 et 0{,}5 dans 95% des échantillons.
4. Prise de décision
Accepter ou rejeter une hypothèse : On veut vérifier si la proportion annoncée p_0 est plausible.
On calcule l'intervalle de fluctuation I_f avec p = p_0 et la taille n
On observe la fréquence f dans l'échantillon
Si f I_f : on ne remet pas en cause la valeur p_0
Si f I_f : on rejette l'hypothèse p = p_0 au seuil de 95%
Exemple : Un fabricant affirme que 5% de ses produits sont défectueux (p_0 = 0{,}05). On contrôle n = 400 produits et on trouve 36 défectueux, soit f = 0{,}09.
Attention : p_0 = 0{,}05 < 0{,}2 donc la formule simplifiée ne s'applique pas directement. On utilise la formule générale ou un outil numérique.
Si on pouvait appliquer la formule : I_f = [0{,}05 - 0{,}05 ;;; 0{,}05 + 0{,}05] = [0 ;;; 0{,}10]. Comme 0{,}09 [0 ;;; 0{,}10], on ne rejette pas l'hypothèse.
5. Simulation
Simulation : Une simulation utilise un générateur de nombres aléatoires pour reproduire une expérience aléatoire un grand nombre de fois.
Simuler avec un tableur ou une calculatrice : Pour simuler n lancers d'une pièce (p = 0{,}5) :
Générer n nombres aléatoires entre 0 et 1
Si le nombre est < 0{,}5 : « pile », sinon « face »
Compter la fréquence de « pile »
Répéter l'expérience plusieurs fois et observer la fluctuation
Exemple : On simule 50 lancers d'un dé. On veut estimer P(obtenir 6) = 1{6} 0{,}167.
Résultats de 5 simulations : f_1 = 0{,}14, f_2 = 0{,}20, f_3 = 0{,}16, f_4 = 0{,}22, f_5 = 0{,}12.
La fréquence fluctue autour de la valeur théorique 0{,}167.
6. Taille d'échantillon et précision
Lien entre taille et précision : L'amplitude de l'intervalle de fluctuation est 2{n}.
Pour diviser l'amplitude par 2, il faut multiplier n par 4.
| Taille n | Amplitude 2{n} |
|---|---|
| 100 | 0,20 |
| 400 | 0,10 |
| 1 600 | 0,05 |
| 10 000 | 0,02 |
À retenir
Résumé :
La fréquence f fluctue autour de p d'un échantillon à l'autre
Intervalle de fluctuation (seuil 95%) : [p - 1{n} ;;; p + 1{n}]
Si f I_f → on rejette l'hypothèse au seuil de 95%
Plus n est grand, plus l'intervalle est petit (meilleure précision)
La simulation permet de vérifier expérimentalement la fluctuation