Statistics for decision

Cours

Search for the first factor

Nous allons chercher le premier facteur F₁.

Il s'agit de trouver la variable permettant de résumer au mieux l'information disponible grâce aux variables d'origine X₁, X₂, ...., X_p.

On la cherchera sous la forme

F₁=u₁₁ Z₁ + u₁₂ Z₂ + ... + u_1p Z_p

où u₁₁, u₁₂, ..., u_1p sont les coefficients cherchés de façon à conserver le maximum d'information.

On imposera à F₁ d'être de moyenne 0 et d'écart type 1.

Le critère mathématique permettant à F₁ d'être le plus en lien avec les variables d'origine est le suivant :

on cherchera à maximiser la corrélation entre F₁ et les variables d'origine, c'est à dire qu'on cherche u₁₁, u₁₂, ..., u_1p tels que :

R² (F₁, X₁) + R² (F₁, X₂) + ... + R² (F₁,X_p) soit maximal

Mathématiquement, il est possible de maximiser ce critère.

Dans ce cas, R² (F₁, X₁) + R² (F₁, X₂) + ... + R²(F₁,X_p) vaut la valeur λ₁ (qui correspond à ce que l'on appelle en mathématique à la plus grande valeur propre, eigenvalue en anglais, de la matrice des corrélations R).

Plus grande valeur propre

Dans notre exemple, λ₁ vaut 4.411.

Les coefficients u₁₁, u₁₂, ..., u_1p sont alors calculés comme étant les coordonnées du vecteur propre associé, eigenvector en anglais (de façon à ce que l'écart-type soit égal à 1).

Vecteur propre associé

On a donc u₁₁=0.128 ; u₁₂=0.209 ; ... ; u_1p=0.180.

On peut donc écrire F₁ sous la forme

F₁=0.218 Z cyl + 0.209 Z puis + 0.201 Z Vit + 0.172 Z poids + 0.182 Z Larg + 0.180 Z Long

F₁ est une nouvelle variable permettant de résumer au mieux les variables d'origine.

On peut donc maintenant calculer les valeurs de F1 pour chacun des individus.

Par exemple,

F₁ (Citroën C2) = 0.218 Z cyl (Citroën C2)+ 0.209 Z puis (Citroën C2)+ 0.201 Z Vit (Citroën C2)+ 0.172 Z poids (Citroën C2)+ 0.182 Z Larg (Citroën C2)+ 0.180 Z Long (Citroën C2)

donc

F₁(Citroën C2) = 0.218 *(-1.054) + 0.209 * (-.935) + 0.201 * (-1.002) + 0.172 * (-1.431) + 0.182 * (-.812) + 0.180 * (-1. 052) = -1.210

Le tableau suivant permet d'avoir les coordonnées de F₁ pour toutes les voitures.

Coordonnées du prermier facteur

Le travail mathématique est effectué, à savoir la construction de ce facteur F₁, nouvelle variable résumant les variables d'origine et leur étant le plus corrélé possible.

Reste maintenant le travail important du chargé d'étude, à savoir l'interprétation de ce facteur F₁ et mesurer la pertinence de son utilisation.

Comment interpréter F₁ ?

Il suffit simplement de se poser les questions suivante :

au vu de la construction de F₁,

F₁=0.218 Z cyl + 0.209 Z puis + 0.201 Z Vit + 0.172 Z poids + 0.182 Z Larg + 0.180 Z Long

quelles sont les variables qui vont faire en sorte que F₁ soit le plus négatif possible pour un individu ?

Quelles sont les variables qui vont faire en sorte que F₁ soit le plus positif possible pour un individu ?

Les réponses à ces deux questions permettront de donner un nom aux deux extrémités de l'axe qui représentera F₁.

Axe F1

Essayons de répondre à la première question sur le coté négatif de F₁.

Classons d'abord les variables par leur influence, mesurée par la valeur absolue de leur coefficient u_1j.

Dans l'ordre, Z_cyl, Z_puis, Z_vit, Z_larg, Z_long, Z_poids (avec des coefficients ayant le même ordre de grandeur).

Donc, comme le coefficient de Z_cyl est positif (+0.218), pour que F₁ soit le plus négatif possible, cela signifie que que Z_cyl doit être le plus négatif possible, c'est à dire que la Cylindrée doit être en dessous de la moyenne.

Ensuite, de la même façon, il faut que Z_Puis soit négatif, ainsi que Z_Vit, Z_Larg, Z_Long et Z_Poids, c'est à dire une puissance en dessous de la moyenne, une vitesse en dessous de la moyenne, et ainsi de suite.

En résumé, une voiture de Cylindrée en dessous de la moyenne, de Puissance en dessous de la moyenne, de Vitesse en dessous de la moyenne, de Largeur en dessous de la moyenne, de Longueur en dessous de la moyenne et de Poids en dessous de la moyenne sera sur le coté négatif de l'axe de F₁.

Il s'agit maintenant de trouver un nom permettant de résumer toutes ces informations.

On pourra par exemple caractériser une voiture ayant un F₁ négatif par le terme « petite voiture », petite ne se résumant pas à la taille de l'habitacle.

De la même façon, interprétons le coté positif de F₁.

Si Z_cyl, Zpuis, Z_vit, Z_larg, Z_long et Z_poids sont tous positifs, F₁ sera positif, c'est à dire si la voiture est de Cylindrée, de Puissance, de Vitesse, de Largeur, de Longueur et de Poids au dessus de la moyenne.

On pourra donc donner interpréter le coté positif de F₁ par le terme « grosse voiture ».

Remarque : dans le cas particulier de cet exemple, du au fait que toutes les variables d'origine étaient très corrélées positivement entre elles, on se retrouve avec un premier facteur que l'on pourra appeler axe de taille. En effet, tous les coefficients de F1 sont du même signe et du même ordre de grandeur. L'interprétation s'en trouve donc facilitée.

Mais ce n'est pas toujours le cas.

Il reste maintenant à placer les coordonnées de toutes les voitures sur F₁.

@@@@ Graph à construire

Étudions maintenant la pertinence de l'utilisation de F₁ : que représente quantitativement F₁ par rapport aux données d'origine ?

F₁ a été construite de façon à maximiser le critère

R² (F₁, X₁) + R² (F₁, X₂) + ... + R² (F₁,X_p)

Ce critère vaut au maximum 1+1+...+1 = p.

On pourra dire que plus R² (F₁, X₁) + R² (F₁, X₂) + ... + R² (F₁,X_p) sera proche de p, meilleure sera la qualité de représentation de F₁.

On pourra donc mesurer le pourcentage de l'information totale expliqué par la variable F₁ par la quantité ( R²(F₁, X₁) + R² (F₁, X₂) + ... + R²(F₁,X_p) )/p.

Or, on a vu par construction de F₁ que R² (F₁, X₁) + R² (F₁, X₂) + ... + R² (F₁,X_p) = λ₁, plus grande valeur propre de la matrice de corrélation R.

Le pourcentage de l'information totale expliqué par F₁ vaut donc λ₁/p.

Plus grande valeur propre

ce qui vaut dans notre exemple 4.411 / 6 soit 73.521%.

On peut donc dire que F₁ explique à elle seule 73.521% de l'information donnée grâce aux p variables initiales X₁, X₂, ..., X_p.

Si on avait choisi une variable aléatoirement, sans utiliser la méthode expliquée auparavant, on était en droit d'attendre un pourcentage d'information de une variable parmi p, soit 1/p (1/6 = 16% dans notre exemple).

Or, grâce à cette méthode, on optimise le résumé et on trouve lambda1/p (73% dans notre exemple).

Bien évidemment, plus les variables sont corrélées à l'origine, meilleur sera ce résultat, ce qui se comprend intuitivement mais aussi mathématiquement.

Accueil

Imprimer