Statistics for decision

Cours

Le test du khi-deux

Dans cette partie, on va s'intéresser à des variables qualitatives à plusieurs modalités.

Par exemple, si l'on considère une urne où se trouvent des boules de quatre couleurs différentes : noire, rouge, jaune, verte, la variable couleur est une variable qualitative à quatre modalités.

Dans le cas d'une variable à deux modalités, on parle de fréquences d'apparition. Quand on a plus de deux modalités, on parle de répartition.

Comparaison de plusieurs répartitions observées.

C'est le problème général de la liaison entre deux caractères qualitatifs. Par exemple, on va étudier l'indépendance entre les deux variables aléatoires qualitatives :

-X_i couleur des yeux à trois modalités: bleus, gris, marrons.

-Y_i couleur des cheveux à quatre modalités: blonds, bruns, noirs, roux.

Pour cela, on a pris un échantillon de 124 personnes qui se repartissent comme suit :

Exemple :

Répartition couleur cheveux/yeux

On cherche à savoir si la répartition de la couleur des cheveux est la même pour les personnes ayant les yeux bleus, gris, ou marrons, et vice-versa si la répartition de la couleur des yeux est la même pour les personnes ayant les cheveux blonds, bruns, noirs ou roux.

C'est donc un problème d'indépendance entre deux variables et on pose une hypothèse H₀ :

"les deux variables sont indépendantes."

Si les deux variables sont indépendantes, alors on est capable de calculer une répartition théorique à partir des marges (nombre de personnes ayant les yeux bleus, ... , nombre de personnes ayant les cheveux blonds, ... ).

Prenons par exemple la probabilité qu'une personne ait les yeux bleus.

On a .

De même, la probabilité qu'une personne soit blonde est .

Sous l'hypothèse d'indépendance H₀, la probabilité qu'une personne soit blonde avec les yeux bleus est P(X1)P(Y1), soit (lorsque deux événements A et B sont indépendants, la probabilité que A et B soient réalisés en même temps vaut P(A)×P(B)).

Par conséquent, sur 124 personnes, l'effectif théorique de personnes blondes aux yeux bleus est .

On obtient ainsi le tableau des répartitions théoriques suivant, en itérant ces calculs pour chaque ligne et chaque colonne.

Répartition théorique couleur cheveux/yeux

On considère donc le tableau de répartition suivant :

Modalité

o_ij correspond aux nombre d'individus observés ayant la modalité i pour X et la modalité j pour Y .

La notation o_i. correspond à . La notation o_.j correspond à .

Le principe du test consiste à comparer les effectifs tels qu'on les a, à la répartition que l'on aurait si les variables étaient indépendantes.

Dans ce cas, en considérant que les marges (o_1., · · ·, o_i., · · ·, o_I., o_.1, · · · , o_.j, · · · , o_.J) sont fixées, on peut calculer cette répartition théorique dans chacun des échantillons.

On a alors : .

Il s'agit donc des effectifs théoriques sous l'hypothèse d'indépendance H₀.

Afin d'étudier la différence entre ces deux répartitions (observée et théorique), on ne saurait utiliser comme indice, ni la somme (ou la moyenne) des écarts, qui est évidemment nulle, ni la somme de leurs valeurs absolues, qui ne se prêtent pas commodément à des calculs de probabilité ; la somme des carrés des écarts évite les inconvénients ci-dessus. C'est cependant un indice encore imparfait car il donne le même poids à tous les écarts, qu'ils se rapportent à des petits ou grands effectifs théoriques.

Ces considérations ont conduit à adopter l'indice suivant, dû à Pearson.

Sous H₀, suit une loi du à (I − 1)(J − 1) degrés de liberté.

Ce test permet de voir si la "différence" est due au hasard ou suffisamment importante pour que l'on puisse conclure que les variables sont effectivement liées.

Règle de décision :

Si > , où est le fractile d'ordre 1− α de la loi du à (I−1)(J−1) degrés de liberté, alors on peut rejeter l'hypothèse d'indépendance entre les deux variables H₀ avec un risque d'erreur α.

Sinon, on ne peut pas rejeter H₀.

Zone de rejet d'une loi du Khi-deux à 6 ddl

Dans l'exemple, on obtient un de 15,06. Or, en prenant un risque d'erreur de 5% par exemple, on a un fractile de la loi du à 6 degrés de liberté de 12,6.

>, donc on rejette l'hypothèse d'indépendance H₀ entre la couleur des yeux et la couleur des cheveux avec un risque d'erreur de 5%. Par contre, si on prend un risque d'erreur de 1%, on a un fractile qui vaut 16, 8. Dans ce cas-là, <, et donc on ne peut pas rejeter H₀ avec un risque d'erreur de 1%.

Étudions maintenant les sorties d'un logiciel (par exemple Statistica). On obtient le tableau suivant :

Nombre de variables (colonnes de la table) : 4

Nombre d'observations actives (lignes de la table) : 3

Valeurs propres : ,1215 ,0000

Chi2 Total = 15,0666 dl = 6 p = ,0198

On retrouve bien le de 15,06 et le fait de travailler avec un à 6 degrés de liberté.

Le p =, 0198 signifie en fait qu'on peut rejeter H₀ avec un risque d'erreur supérieur à un α = 0,0198 soit 1, 98%. On ne peut pas prendre un risque d'erreur inférieur.

Dans la pratique, quel que soit le test, et quelque soit le logiciel, celui-ci nous donne le risque minimum autorisé pour rejeter l'hypothèse H₀. Il appartient à l'utilisateur de voir s'il s'autorise un risque de 1, 98%, s'il a besoin d'un risque de 1% (ex : études pharmaceutiques), ou si un risque de 5% est suffisant (ex : marketing).

Dans la pratique également, ce test ne fonctionnera que si les effectifs c_ij sont supérieurs à 5.

Comparaison d'une répartition observée à une répartition

Exemple :

On tire 160 boules dans une urne à quatre couleurs dont on ne connait pas la répartition. A partir de cet échantillon, on veut savoir s'il est possible que la répartition des couleurs dans l'urne soit de .

On obtient les résultats suivants:

Répartition

On se demande s'il est plausible que l'échantillon (100, 18, 24, 18) provienne d'une urne à quatre couleurs de composition .

A partir des données que l'on a, on va calculer quels seraient les effectifs si la répartition théorique était respectée. Ainsi, avec 160 boules, si la répartition théorique était respectée, on aurait 160x9/16= 90 boules noires.

On obtient :

Répartition théorique

On mesure ensuite la différence entre les effectifs observés et les effectifs théoriques de la même façon que dans la partie précédente :

où les o_i sont les effectifs observés, et les c_i les effectifs théoriques.

Si l'hypothèse H₀ est vérifiée (les effectifs observés et théoriques suivent la même répartition), alors suit une loi du à (I−1) degrés de liberté, où I est le nombre de modalités, sous certaines conditions : il faut que tous les effectifs théoriques soient supérieurs à 5 (un terme trop petit au dénominateur, simplement pour l'une des cases, augmenterait artificiellement la valeur du ).

Règle de décision

Si >, alors on rejette l'hypothèse H₀ avec un risque d'erreur α. On en conclut donc que la répartition observée est significativement différente de la répartition théorique.

Dans notre exemple, nous avons =13,51.

A 5%, le à 3 ddl (degrés de liberté) vaut 7,815(voir A.4).

Donc >.

La répartition observée est significativement différente de la répartition théorique.

Accueil

Imprimer