Statistics for decision

Estimation de la moyenne

Le problème

Soit une variable quantitative de moyenne μ et de variance σ² dans la population P. La valeur de μ est inconnue. Par exemple, dans la population des personnes françaises de 25 ans, nous cherchons la valeur de la taille moyenne μ. On tire un échantillon aléatoire E de la population et on considère donc la v.a. de la taille X. On calcule dans cet échantillon la moyenne m de la variable.

Que peut-on dire de la valeur de μ maintenant que nous connaissons m ?

La théorie statistique montre qu'en général, la moyenne observée m n'est pas très éloignée de μ ; on estime donc μ par m.

Pour montrer qu'il ne s'agit pas de la vraie valeur de μ, mais d'une estimation, on écrit = m ; le signe ^ indique donc qu'il s'agit d'une valeur estimée.

Estimation par intervalle de confiance de la moyenne

Bien évidemment, lorsqu'on cherche à estimer μ on n'utilise qu'un seul échantillon E d'où on tire une moyenne m.

L'objectif du problème est de définir à partir des données de E, et notamment à partir de m, un intervalle I = [t1, t2] ayant de grandes chances (plus rigoureusement une forte probabilité) de contenir μ.

On dit que I est un intervalle de confiance.

Nous allons nous servir de l'exemple "Rola Cola", adapté par Michel Tenenaus dans son livre.

Exemple

Le Département marketing de Rola-Cola souhaite étudier les attitudes et les préférences des consommateurs envers Rola-Cola et une boisson concurrente appelée Koka-Cola.

Une enquête a donc été réalisée en faisant passer un test de goût à des clients choisis au hasard et en leur posant ensuite les quatre questions suivantes :

Question 1 : Quelle boisson préférez-vous ? Entourez votre réponse.

Rola-Cola Koka-Cola

Question 2 : Avez-vous déjà acheté Rola-Cola ? Entourez votre réponse.

OUI NON

Question 3 : Entourez la réponse décrivant au mieux votre réaction à la phrase : "J'aime mes boissons au cola sucrées"

1. D'accord

2. Je ne suis pas sûr

3. Pas d'accord

Question 4 : Combien de litres de boissons au cola votre famille a-t-elle consommés au cours du mois dernier ?

Une cinquième question a été ajoutée pour relier la consommation de chips à celle des boissons au cola :

Question 5 : Combien de paquets de chips de 125 gr votre famille a-t-elle consommés au cours du mois dernier ?

Les questions furent posées à 40 clients choisis au hasard dans un centre commercial de banlieue. Les réponses de ces clients sont les suivantes.

Réponses

Nous sommes bien dans le cas où les renseignements sont pris sur un échantillon.

Intéressons-nous à la variable 4 : Quantité en litres de boissons au cola consommée par la famille au cours du mois dernier.

Nous observons sur l'échantillon une quantité moyenne m=5,875 calculée tout simplement par la formule , où les xi sont les valeurs prises par la variable 4 pour tous les individus de l'échantillon.

Que peut-on conclure sur μ, quantité moyenne de boissons au cola consommée mensuellement par une famille au niveau de la population en entier ?

Nous allons naturellement l'estimer par m. Mais est-ce que la vraie valeur est éloignée de cette quantité ?

Pour cela, grâce à un théorème très important en probabilité appelé théorème central-limite, nous pouvons dire avec un risque d'erreur α de se tromper que μ appartient à l'intervalle suivant, appelé intervalle de confiance :

- s est la racine de (c'est une sorte d'estimation de la variance),

- et est le fractile d'ordre d'une loi de

Student à n − 1 degrés de liberté.

Cette formule peut paraître compliquée en raison de la loi de Student(voir 1.10.3), mais en fait, il suffit, comme pour la loi normale, d'utiliser les tables des fractiles de la loi de Student (voir A.3), qui ressemblent étrangement à ceux de la loi normale, surtout lorsque n est grand.

Application : on peut calculer s=2,97 et si on prend a=5%.

Cela nous donne un intervalle de confiance de [4,925; 6; 825] (le lecteur se rend compte que nous utilisons un certain nombre d'arrondis de calcul, nous souhaitons uniquement des ordres de grandeur).

Interprétation : je suis sûr, avec un risque d'erreur de 5%, que la quantité moyenne de boissons au cola consommée mensuellement par une famille au niveau de la population en entier se trouve entre 4, 925 l et 6, 825 l.

Nous nous rendons compte tout de suite avec cette notion d'intervalle de confiance qu'un résultat calculé sur un échantillon ne peut être présenté de façon ponctuelle sans une perte de précision importante.

Nous voyons aussi que pour améliorer la précision d'un intervalle de confiance, il faut, soit augmenter le risque d'erreur (ce qui rendra plus petit le fractile), soit augmenter n, c'est à dire la taille de l'échantillon.

PrécédentPrécédentSuivantSuivant
AccueilAccueilImprimerImprimer