Statistics for decision

Cours

Overall quality of the model

La formule de décomposition totale, explicitée en régression simple est toujours valable, à savoir .

La démonstration est un peu plus complexe et ne sera pas présentée.

Par conséquent, et comme en régression simple, on peut introduire le coefficient de détermination

Coefficient de détermination

On peut donc dire que 80,9 % du prix du forfait est expliqué grâce à ce modèle.

Par contre, et c'est une grande différence avec la régression simple, le coefficient de corrélation R n'a plus ici aucune signification. Il était valable et intéressant lorsque seulement deux variables étaient dans le modèle, une étant dépendante de l'autre, et mesurait le comportement simultané de ces deux variables.

Pour tester la qualité du modèle, on utilisera donc un autre test et une autre statistique, à savoir le F de Fischer Snedecor.

Les hypothèses du test sont :

H₀ : « Y ne dépend d'aucune des variables X₁, X₂, ..., X_k »

H₁ : « Y dépend d'au moins une des variables X_j »

La statistique utilisée est

La règle de décision est qu'on rejette H₀ au profit de H₁ avec un risque d'erreur alpha lorsque (fractile d'une loi de Fischer Snedecor à k et n-k-1 degrés de liberté, où k est le nombre de variables explicatives dans le modèle).

Bien évidemment et comme dans beaucoup de tests, on regardera directement le niveau de signification qui correspond au risque d'erreur lorsqu'on rejette H₀.

Dans notre exemple, F=54,365 et le niveau de signification du test (Sig) est inférieur à 0,1%, ce qui permet de rejeter le fait qu'aucune des variables X_j n'a d'influence sur Y.

On peut donc raisonnablement imaginer que notre modèles est globalement pertinent.

@@@@@ rajouter un topo sur le R2 ajusté

Il faut maintenant se poser la question de la précision du modèle.

Et comme en régression multiple, et grâce à la méthode des moindres carrés, si on peut écrire le modèle sous la forme

=b₀+b₁X₁+b₂X₂+...+b_kX_k ,

on peut aussi écrire que

Y = b₀+b₁X₁+b₂X₂ + ... + b_kX_k + terme résiduel,

ce terme résiduel étant une variable suivant une loi normale d'espérance nulle et d'écart-type .

Pour estimer , on utilisera encore les valeurs de e_i connues, mais avec l'estimation suivante :

Cette valeur, toujours appelée dans le logiciel SPSS standard error of the estimate, est de 17,237.

De la même façon qu'en régression simple, on peut utiliser le modèle afin d'avoir une estimation sous la forme d'un intervalle de prévision .

Le modèle obtenu en régression multiple a donc une précision de 2= 2x17,237=34,5FF à comparer avec la précision de 50 FF du modèle de régression simple.

Il y a donc une amélioration significative à utiliser la régression multiple en rajoutant d'autres variables comme prédicteurs.

Accueil

Imprimer