Statistics for decision

Recherche des facteurs suivants

Une variable F1 résumant à elle seule λ1/p % de l'information peut ne pas suffire.

De plus, une représentation graphique sur un seul axe peut apparaître limité, même si cette méthode est intéressante si l'on cherche à obtenir un simple score résumant les données.

Sinon, il est intéressant de pousser un peu plus loin l'analyse en cherchant à construire d'autres facteurs.

A partir de la construction de F1, que peut-on attendre d'un deuxième facteur F2 ?

On peut simplement demander que F2 ne reprenne pas l'information résumée par F1 (les 73% de notre exemple).

Ensuite, l'idéal est que F2 résume un maximum de l'information qui reste.

Mathématiquement, on peut traduire cela de la façon suivante :

on cherche une variable F2=u21 Z1 + u22 Z2 + ... + u2p Zp

on demande que F2 soit indépendante à F1, c'est à dire R(F1,F2)=0.

Sous cette contrainte, il faut ensuite que R2 (F2, X1) + R2 (F2, X2) + ... + R2 (F2,Xp).

Il est à nouveau possible de répondre à ces contraintes mathématiques.

Pour cela, on obtiendra R2 (F2, X1) + R2 (F2, X2) + ... + R2 (F2,Xp) = lambda2, la seconde valeur propre de la matrice de corrélation R (dans l'exemple λ2=0.853).

Plus grande valeur propre

Et il faut que les coefficients u21, u22, ..., u2p soient alors calculés comme étant les coordonnées du vecteur propre associé, toujours de façon à obtenir un écart-type égal à 1.

Vecteur propre associé

On peut donc écrire F2 sous la forme

F2=-0.149 Z cyl - 0.413 Z puis - 0.397 Z Vit + 0.675 Z poids - 0.130 Z Larg + 0.591 Z Long

et calculer les coordonnées de F2 pour chacune des voitures.

Coordonnées du deuxième facteur

Il faut maintenant mesurer la qualité d'information expliquée par F2 et ensuite interpréter ce nouveau facteur.

Concernant la qualité, on a R² (F2, X1) + R² (F2, X2) + ... + R² (F2,Xp) = λ2.

On peut donc dire que F2 résume λ2 / p % de l'information, soit dans notre exemple 0.853/6 = 14.223% de l'information globale. Cela peut apparaître faible, mais n'oublions pas que F2, par construction, n'a pas résumé du tout l'information expliquée par F1.

Plus grande valeur propre

Et de plus, comme F1 et F2 sont indépendants, on peut ajouter ces pourcentages et dire que les variables F1 et F2 résument à elles deux 73.521 + 14.223 = 87.745 % de l'information ( à comparer avec un a priori de 2/6 = 33% pour un choix aléatoire de deux variables résumant les 6 variables d'origine).

Interprétons maintenant F2, de la même façon que nous avions interprété F1 en se posant les questions

Au vu de la construction de F2,

F2=-0.149 Zcyl -0.413 Zpuis -0.397 ZVit+0.675 Zpoids-0.130 ZLarg+0.591 ZLong

quelles sont les variables qui vont faire en sorte que F2 soit le plus négatif possible pour un individu ?

Quelles sont les variables qui vont faire en sorte que F2 soit le plus positif possible pour un individu ?

Nous voyons que de par la valeur absolue de leurs coefficients (0.675 et 0.591) les variables ZPoids et Zlong ont une influence très importante dans F2. Ensuite, les variables ZPuis et ZVit (0.413 et 0.397) ont une influence importante. Enfin, les variables Zcyl et ZLarg (0.149 et 0.130) ont elles une influence très faible.

Pour le coté négatif, si Zpoids est négatif, Zlong est négatif (critères très importants, avec des coefficients positifs) et si ZPuis et ZVit sont positifs (critères importants avec des coefficients négatifs), F2 aura une valeur négative.

Ceci est donc obtenu pour une voiture dont le poids est très en dessous de la moyenne, la longueur très en dessous de la moyenne, la puissance au dessus de la moyenne et la vitesse au dessus de la moyenne, c'est à dire pour une voiture très légère, très courte, puissante et rapide.

A l'opposé, pour le coté positif, une voiture très lourde, très longue, peu puissante et peu rapide aura un F2 positif.

Il s'agit maintenant de trouver un nom aux deux extrémités de l'axe représentant F2. On pourra par exemple opposer les voitures dites « sportives » aux voitures dites « familiales ».

Une fois les deux premiers facteurs trouvés, il est bien entendu mathématiquement possible de continuer et de construire d'autres facteurs, et ce d'autant plus si le nombre de variables à l'origine (p) est important.

Combien de facteurs faut-il construire ?

Il n'y a pas réellement de règles.

Certains vont construire suffisamment de facteurs pour obtenir un pourcentage minimum d'information expliqué par ces facteurs (par exemple 75%).

D'autres vont construire des facteurs tant que les valeurs propres sont supérieures à 1. En effet, une valeur propre plus grande que 1 signifie que le facteur explique plus d'information qu'une variable d'origine.

D'autres choisissent simplement de construire des facteurs tant que leur interprétation prend en compte des informations intéressantes pour l'étude.

D'autres enfin utilisent des méthodes mathématiques permettant de mesurer à partir de quand le compromis entre un nouveau facteur et le gain d'information n'est plus intéressant.

Bref, il est conseillé au chargé d'étude d'essayer un ou deux facteurs supplémentaires pour mesurer son intérêt, les résultats étant donnés par les logiciels.

PrécédentPrécédentSuivantSuivant
AccueilAccueilImprimerImprimer