Intervalles de confiance
Introduction
En statistique inférentielle, on cherche à estimer des paramètres d'une population à partir d'un échantillon. Les intervalles de confiance fournissent une estimation avec une marge d'erreur, plutôt qu'une valeur ponctuelle unique.
1. Principe de l'estimation par intervalle
1.1 Problématique
On dispose d'un échantillon de taille n tiré d'une population. On souhaite estimer un paramètre p (par exemple, une proportion) de cette population.
Au lieu de donner une seule valeur estimée, on construit un intervalle de confiance qui contient p avec une certaine probabilité.
1.2 Définition
Définition : Un intervalle de confiance de niveau de confiance 1 - (souvent 95% ou 99%) pour un paramètre p est un intervalle [a, b] tel que :
[formule]
Le niveau de confiance 1 - est généralement choisi égal à 0,95 (95%) ou 0,99 (99%).
Exemple : Si on construit un intervalle de confiance à 95% pour une proportion p, cela signifie que si on répétait l'expérience un grand nombre de fois, environ 95% des intervalles construits contiendraient la vraie valeur de p.
2. Intervalle de confiance pour une proportion
2.1 Cas d'un grand échantillon
Théorème : Soit p la proportion inconnue dans une population. On dispose d'un échantillon de taille n dans lequel on observe une fréquence f = X{n} où X est le nombre de "succès".
Si n 30, nf 5 et n(1-f) 5, alors un intervalle de confiance de niveau 1 - pour p est :
[formule]
où u_ est le quantile d'ordre 1 - {2} de la loi normale centrée réduite.
Exemple : Dans un échantillon de n = 400 personnes, on observe 180 personnes favorables à une mesure, soit f = 180{400} = 0,45.
Pour un intervalle de confiance à 95%, on a = 0,05, donc u_{0,975} 1,96.
L'intervalle de confiance est :
[formule]
[formule]
[formule]
Avec un niveau de confiance de 95%, la proportion p dans la population est entre 40,1% et 49,9%.
2.2 Amplitude de l'intervalle
L'amplitude de l'intervalle de confiance est :
[formule]
Cette amplitude dépend de :
- Le niveau de confiance (plus il est élevé, plus l'intervalle est large)
- La taille de l'échantillon n (plus n est grand, plus l'intervalle est étroit)
- La fréquence observée f (l'amplitude est maximale pour f = 0,5)
3. Intervalle de confiance pour une moyenne
3.1 Cas où l'écart-type est connu
Théorème : Soit X une variable aléatoire de moyenne inconnue et d'écart-type connu.
Si on dispose d'un échantillon de taille n avec moyenne observée x, alors un intervalle de confiance de niveau 1 - pour est :
[formule]
où u_ est le quantile d'ordre 1 - {2} de la loi normale centrée réduite.
Exemple : On mesure la taille de n = 100 personnes et on trouve x = 175 cm. On sait que l'écart-type de la population est = 8 cm.
Pour un intervalle de confiance à 95%, avec u_{0,975} 1,96 :
[formule]
[formule]
Avec un niveau de confiance de 95%, la taille moyenne de la population est entre 173,4 cm et 176,6 cm.
3.2 Cas où l'écart-type est inconnu (grand échantillon)
Si l'écart-type est inconnu mais que n est grand (n 30), on peut utiliser l'écart-type de l'échantillon s comme approximation de .
L'intervalle devient :
[formule]
4. Interprétation des intervalles de confiance
4.1 Signification
Important : Un intervalle de confiance à 95% ne signifie pas que p a 95% de chances d'être dans l'intervalle.
Cela signifie que si on répétait l'expérience un grand nombre de fois, environ 95% des intervalles construits contiendraient la vraie valeur de p.
4.2 Précision et fiabilité
Il y a un compromis entre :
- Précision : un intervalle étroit est plus informatif
- Fiabilité : un niveau de confiance élevé donne plus de certitude
Pour améliorer la précision sans réduire la fiabilité, il faut augmenter la taille de l'échantillon n.
5. Calcul de la taille d'échantillon nécessaire
5.1 Pour une proportion
Si on veut un intervalle de confiance d'amplitude maximale A pour une proportion, avec un niveau de confiance 1 - , la taille minimale de l'échantillon est :
[formule]
Si on ne connaît pas f à l'avance, on utilise f = 0,5 (qui donne la taille maximale).
Exemple : On veut estimer une proportion avec un intervalle de confiance à 95% d'amplitude maximale A = 0,02 (2 points de pourcentage).
Avec u_{0,975} 1,96 et en prenant f = 0,5 (cas le plus défavorable) :
[formule]
Il faut au moins 9604 individus dans l'échantillon.
5.2 Pour une moyenne
Pour une moyenne, avec un écart-type connu et une amplitude maximale A :
[formule]
6. Applications pratiques
6.1 Sondages d'opinion
Les sondages utilisent des intervalles de confiance pour estimer les intentions de vote.
Exemple : Un sondage sur n = 1000 personnes donne 52% d'intentions de vote pour un candidat.
L'intervalle de confiance à 95% est :
[formule]
[formule]
Avec 95% de confiance, le candidat a entre 48,9% et 55,1% d'intentions de vote.
6.2 Contrôle qualité
Les intervalles de confiance permettent d'estimer la moyenne d'un processus de production.
À retenir
Résumé :
Un intervalle de confiance donne une estimation d'un paramètre avec une marge d'erreur.
Pour une proportion : [f u_ {f(1-f){n}}] (si n 30, nf 5, n(1-f) 5).
Pour une moyenne : [x u_ {n}] (si connu) ou [x u_ s{n}] (si n grand).
Le niveau de confiance (souvent 95%) indique la proportion d'intervalles qui contiendraient le paramètre si on répétait l'expérience.
Pour améliorer la précision, il faut augmenter la taille de l'échantillon.
Conseil pratique : Pour construire un intervalle de confiance :
- Vérifier les conditions d'application (n assez grand, etc.)
- Calculer la fréquence ou la moyenne observée
- Déterminer le quantile u_ selon le niveau de confiance souhaité
- Calculer la marge d'erreur et construire l'intervalle
- Interpréter le résultat dans le contexte
Piège courant : Attention ! Un intervalle de confiance à 95% ne signifie pas que le paramètre a 95% de chances d'être dans l'intervalle. C'est une interprétation fréquente mais incorrecte. Le paramètre est fixe, c'est l'intervalle qui est aléatoire.