Statistics for decision

Cours

Recherche des facteurs suivants

Une variable F₁ résumant à elle seule λ₁/p % de l'information peut ne pas suffire.

De plus, une représentation graphique sur un seul axe peut apparaître limité, même si cette méthode est intéressante si l'on cherche à obtenir un simple score résumant les données.

Sinon, il est intéressant de pousser un peu plus loin l'analyse en cherchant à construire d'autres facteurs.

A partir de la construction de F₁, que peut-on attendre d'un deuxième facteur F₂ ?

On peut simplement demander que F₂ ne reprenne pas l'information résumée par F₁ (les 73% de notre exemple).

Ensuite, l'idéal est que F₂ résume un maximum de l'information qui reste.

Mathématiquement, on peut traduire cela de la façon suivante :

on cherche une variable F₂=u₂₁ Z₁ + u₂₂ Z₂ + ... + u_2p Z_p

on demande que F₂ soit indépendante à F₁, c'est à dire R(F₁,F₂)=0.

Sous cette contrainte, il faut ensuite que R₂ (F₂, X₁) + R₂ (F₂, X₂) + ... + R₂ (F₂,X_p).

Il est à nouveau possible de répondre à ces contraintes mathématiques.

Pour cela, on obtiendra R₂ (F₂, X₁) + R₂ (F₂, X₂) + ... + R₂ (F₂,X_p) = lambda2, la seconde valeur propre de la matrice de corrélation R (dans l'exemple λ₂=0.853).

Plus grande valeur propre

Et il faut que les coefficients u₂₁, u₂₂, ..., u_2p soient alors calculés comme étant les coordonnées du vecteur propre associé, toujours de façon à obtenir un écart-type égal à 1.

Vecteur propre associé

On peut donc écrire F₂ sous la forme

F₂=-0.149 Z cyl - 0.413 Z puis - 0.397 Z Vit + 0.675 Z poids - 0.130 Z Larg + 0.591 Z Long

et calculer les coordonnées de F₂ pour chacune des voitures.

Coordonnées du deuxième facteur

Il faut maintenant mesurer la qualité d'information expliquée par F₂ et ensuite interpréter ce nouveau facteur.

Concernant la qualité, on a R² (F₂, X₁) + R² (F₂, X₂) + ... + R² (F₂,X_p) = λ₂.

On peut donc dire que F₂ résume λ₂ / p % de l'information, soit dans notre exemple 0.853/6 = 14.223% de l'information globale. Cela peut apparaître faible, mais n'oublions pas que F₂, par construction, n'a pas résumé du tout l'information expliquée par F₁.

Plus grande valeur propre

Et de plus, comme F₁ et F₂ sont indépendants, on peut ajouter ces pourcentages et dire que les variables F₁ et F₂ résument à elles deux 73.521 + 14.223 = 87.745 % de l'information ( à comparer avec un a priori de 2/6 = 33% pour un choix aléatoire de deux variables résumant les 6 variables d'origine).

Interprétons maintenant F₂, de la même façon que nous avions interprété F₁ en se posant les questions

Au vu de la construction de F₂,

F₂=-0.149 Z_cyl -0.413 Z_puis -0.397 Z_Vit+0.675 Z_poids-0.130 Z_Larg+0.591 Z_Long

quelles sont les variables qui vont faire en sorte que F₂ soit le plus négatif possible pour un individu ?

Quelles sont les variables qui vont faire en sorte que F₂ soit le plus positif possible pour un individu ?

Nous voyons que de par la valeur absolue de leurs coefficients (0.675 et 0.591) les variables Z_Poids et Z_long ont une influence très importante dans F₂. Ensuite, les variables Z_Puis et Z_Vit (0.413 et 0.397) ont une influence importante. Enfin, les variables Z_cyl et Z_Larg (0.149 et 0.130) ont elles une influence très faible.

Pour le coté négatif, si Z_poids est négatif, Z_long est négatif (critères très importants, avec des coefficients positifs) et si Z_Puis et Z_Vit sont positifs (critères importants avec des coefficients négatifs), F₂ aura une valeur négative.

Ceci est donc obtenu pour une voiture dont le poids est très en dessous de la moyenne, la longueur très en dessous de la moyenne, la puissance au dessus de la moyenne et la vitesse au dessus de la moyenne, c'est à dire pour une voiture très légère, très courte, puissante et rapide.

A l'opposé, pour le coté positif, une voiture très lourde, très longue, peu puissante et peu rapide aura un F₂ positif.

Il s'agit maintenant de trouver un nom aux deux extrémités de l'axe représentant F₂. On pourra par exemple opposer les voitures dites « sportives » aux voitures dites « familiales ».

Une fois les deux premiers facteurs trouvés, il est bien entendu mathématiquement possible de continuer et de construire d'autres facteurs, et ce d'autant plus si le nombre de variables à l'origine (p) est important.

Combien de facteurs faut-il construire ?

Il n'y a pas réellement de règles.

Certains vont construire suffisamment de facteurs pour obtenir un pourcentage minimum d'information expliqué par ces facteurs (par exemple 75%).

D'autres vont construire des facteurs tant que les valeurs propres sont supérieures à 1. En effet, une valeur propre plus grande que 1 signifie que le facteur explique plus d'information qu'une variable d'origine.

D'autres choisissent simplement de construire des facteurs tant que leur interprétation prend en compte des informations intéressantes pour l'étude.

D'autres enfin utilisent des méthodes mathématiques permettant de mesurer à partir de quand le compromis entre un nouveau facteur et le gain d'information n'est plus intéressant.

Bref, il est conseillé au chargé d'étude d'essayer un ou deux facteurs supplémentaires pour mesurer son intérêt, les résultats étant donnés par les logiciels.

Accueil

Imprimer