Échantillonnage

Statistiques et probabilités — Seconde

Échantillonnage

Introduction

L'échantillonnage consiste à étudier une partie (un échantillon) d'une population pour en tirer des conclusions sur l'ensemble. C'est un outil fondamental en statistiques et en sciences.


1. Population et échantillon

Vocabulaire :

  • Population : ensemble complet des individus étudiés
  • Échantillon : sous-ensemble de la population, de taille n
  • Proportion p : proportion d'un caractère dans la population
  • Fréquence f : proportion observée dans l'échantillon

Exemple : Une usine produit des ampoules. On veut connaître la proportion p d'ampoules défectueuses.

On prélève un échantillon de n = 100 ampoules et on trouve f = 0{,}08 (8 défectueuses sur 100).


2. Fluctuation d'échantillonnage

Fluctuation : La fluctuation d'échantillonnage est le fait que la fréquence f observée dans un échantillon varie d'un échantillon à l'autre, même si la proportion p de la population reste fixe.

Observation fondamentale : Plus la taille n de l'échantillon est grande, plus la fréquence f est proche de la proportion p théorique.

C'est une conséquence de la loi des grands nombres.

Exemple : On lance une pièce équilibrée (p = 0{,}5).

  • Avec n = 10 lancers, on peut obtenir f = 0{,}3 ou f = 0{,}7 (forte fluctuation)
  • Avec n = 1000 lancers, f sera très proche de 0{,}5 (faible fluctuation)

3. Intervalle de fluctuation

Intervalle de fluctuation au seuil de 95% : Pour un échantillon de taille n 25 et une proportion p telle que 0{,}2 p 0{,}8, la fréquence f observée appartient, dans environ 95% des cas, à l'intervalle de fluctuation :

[formule]

Exemple : Une proportion connue est p = 0{,}4 et on prélève un échantillon de n = 100.

[formule]

On s'attend à ce que la fréquence observée soit entre 0{,}3 et 0{,}5 dans 95% des échantillons.


4. Prise de décision

Accepter ou rejeter une hypothèse : On veut vérifier si la proportion annoncée p_0 est plausible.

  1. On calcule l'intervalle de fluctuation I_f avec p = p_0 et la taille n

  2. On observe la fréquence f dans l'échantillon

  3. Si f I_f : on ne remet pas en cause la valeur p_0

  4. Si f I_f : on rejette l'hypothèse p = p_0 au seuil de 95%

Exemple : Un fabricant affirme que 5% de ses produits sont défectueux (p_0 = 0{,}05). On contrôle n = 400 produits et on trouve 36 défectueux, soit f = 0{,}09.

Attention : p_0 = 0{,}05 < 0{,}2 donc la formule simplifiée ne s'applique pas directement. On utilise la formule générale ou un outil numérique.

Si on pouvait appliquer la formule : I_f = [0{,}05 - 0{,}05 ;;; 0{,}05 + 0{,}05] = [0 ;;; 0{,}10]. Comme 0{,}09 [0 ;;; 0{,}10], on ne rejette pas l'hypothèse.


5. Simulation

Simulation : Une simulation utilise un générateur de nombres aléatoires pour reproduire une expérience aléatoire un grand nombre de fois.

Simuler avec un tableur ou une calculatrice : Pour simuler n lancers d'une pièce (p = 0{,}5) :

  1. Générer n nombres aléatoires entre 0 et 1

  2. Si le nombre est < 0{,}5 : « pile », sinon « face »

  3. Compter la fréquence de « pile »

  4. Répéter l'expérience plusieurs fois et observer la fluctuation

Exemple : On simule 50 lancers d'un dé. On veut estimer P(obtenir 6) = 1{6} 0{,}167.

Résultats de 5 simulations : f_1 = 0{,}14, f_2 = 0{,}20, f_3 = 0{,}16, f_4 = 0{,}22, f_5 = 0{,}12.

La fréquence fluctue autour de la valeur théorique 0{,}167.


6. Taille d'échantillon et précision

Lien entre taille et précision : L'amplitude de l'intervalle de fluctuation est 2{n}.

Pour diviser l'amplitude par 2, il faut multiplier n par 4.

Taille n Amplitude 2{n}
100 0,20
400 0,10
1 600 0,05
10 000 0,02

À retenir

Résumé :

  1. La fréquence f fluctue autour de p d'un échantillon à l'autre

  2. Intervalle de fluctuation (seuil 95%) : [p - 1{n} ;;; p + 1{n}]

  3. Si f I_f → on rejette l'hypothèse au seuil de 95%

  4. Plus n est grand, plus l'intervalle est petit (meilleure précision)

  5. La simulation permet de vérifier expérimentalement la fluctuation