Échantillonnage

Introduction

L'échantillonnage consiste à étudier une partie (un échantillon) d'une population pour en tirer des conclusions sur l'ensemble. C'est un outil fondamental en statistiques et en sciences.

1. Population et échantillon

Vocabulaire :

Population : ensemble complet des individus étudiés
Échantillon : sous-ensemble de la population, de taille n
Proportion p : proportion d'un caractère dans la population
Fréquence f : proportion observée dans l'échantillon

Exemple : Une usine produit des ampoules. On veut connaître la proportion p d'ampoules défectueuses.

On prélève un échantillon de n = 100 ampoules et on trouve f = 0{,}08 (8 défectueuses sur 100).

2. Fluctuation d'échantillonnage

Fluctuation : La fluctuation d'échantillonnage est le fait que la fréquence f observée dans un échantillon varie d'un échantillon à l'autre, même si la proportion p de la population reste fixe.

Observation fondamentale : Plus la taille n de l'échantillon est grande, plus la fréquence f est proche de la proportion p théorique.

C'est une conséquence de la loi des grands nombres.

Exemple : On lance une pièce équilibrée (p = 0{,}5).

Avec n = 10 lancers, on peut obtenir f = 0{,}3 ou f = 0{,}7 (forte fluctuation)
Avec n = 1000 lancers, f sera très proche de 0{,}5 (faible fluctuation)

3. Intervalle de fluctuation

Intervalle de fluctuation au seuil de 95% : Pour un échantillon de taille n 25 et une proportion p telle que 0{,}2 p 0{,}8, la fréquence f observée appartient, dans environ 95% des cas, à l'intervalle de fluctuation :

[formule]

Exemple : Une proportion connue est p = 0{,}4 et on prélève un échantillon de n = 100.

[formule]

On s'attend à ce que la fréquence observée soit entre 0{,}3 et 0{,}5 dans 95% des échantillons.

4. Prise de décision

Accepter ou rejeter une hypothèse : On veut vérifier si la proportion annoncée p_0 est plausible.

On calcule l'intervalle de fluctuation I_f avec p = p_0 et la taille n
On observe la fréquence f dans l'échantillon
Si f I_f : on ne remet pas en cause la valeur p_0
Si f I_f : on rejette l'hypothèse p = p_0 au seuil de 95%

Exemple : Un fabricant affirme que 5% de ses produits sont défectueux (p_0 = 0{,}05). On contrôle n = 400 produits et on trouve 36 défectueux, soit f = 0{,}09.

Attention : p_0 = 0{,}05 < 0{,}2 donc la formule simplifiée ne s'applique pas directement. On utilise la formule générale ou un outil numérique.

Si on pouvait appliquer la formule : I_f = [0{,}05 - 0{,}05 ;;; 0{,}05 + 0{,}05] = [0 ;;; 0{,}10]. Comme 0{,}09 [0 ;;; 0{,}10], on ne rejette pas l'hypothèse.

5. Simulation

Simulation : Une simulation utilise un générateur de nombres aléatoires pour reproduire une expérience aléatoire un grand nombre de fois.

Simuler avec un tableur ou une calculatrice : Pour simuler n lancers d'une pièce (p = 0{,}5) :

Générer n nombres aléatoires entre 0 et 1
Si le nombre est < 0{,}5 : « pile », sinon « face »
Compter la fréquence de « pile »
Répéter l'expérience plusieurs fois et observer la fluctuation

Exemple : On simule 50 lancers d'un dé. On veut estimer P(obtenir 6) = 1{6} 0{,}167.

Résultats de 5 simulations : f_1 = 0{,}14, f_2 = 0{,}20, f_3 = 0{,}16, f_4 = 0{,}22, f_5 = 0{,}12.

La fréquence fluctue autour de la valeur théorique 0{,}167.

6. Taille d'échantillon et précision

Lien entre taille et précision : L'amplitude de l'intervalle de fluctuation est 2{n}.

Pour diviser l'amplitude par 2, il faut multiplier n par 4.

Taille n	Amplitude 2{n}
100	0,20
400	0,10
1 600	0,05
10 000	0,02

À retenir

Résumé :

La fréquence f fluctue autour de p d'un échantillon à l'autre
Intervalle de fluctuation (seuil 95%) : [p - 1{n} ;;; p + 1{n}]
Si f I_f → on rejette l'hypothèse au seuil de 95%
Plus n est grand, plus l'intervalle est petit (meilleure précision)
La simulation permet de vérifier expérimentalement la fluctuation