Statistics for decision

Z scores

Considérons les données suivantes qui synthétisent les caractéristiques d'un panel de voitures :

Cars 2004

Comment situer rapidement une caractéristique d'une voiture par rapport aux autres ? Est-elle proche de la moyenne ou s'en écarte-t-elle significativement ? Comment comparer les distributions de deux variables dont les ordres de grandeurs sont différents ? Les données seraient-elles similaires si l'on travaillait en mph et kW plutôt qu'en km/h et hp ?

En l'état, ces données ne sont que partiellement exploitables. Il faut donc les standardiser.

DéfinitionZ-score (ou donnée standardizée)

On appelle z-score ou donnée standardisée de x la variable z telle que où μ et σ sont respectivement la moyenne et l'écart-type de la variable x.

Passer par les z-scores permet de s'affranchir des unités. De plus la moyenne σ(z) vaut 0 et l'écart type μ(z) vaut 1. Enfin les valeurs extrêmes sont inférieures à -2 ou supérieures à 2 (μ-2σ et μ+2σ).

Ainsi, plus besoin de calcul.

Reprenons les données précédentes standardisées :

z cars 2004

On peut maintenant étudier plus facilement les données et en déduirze par exemple que le Discovery semble sur-dimensionné, que la Clio V6 est sur-motorisée, ou que la Ferrari Enzo est hors norme.

PrécédentPrécédentSuivantSuivant
AccueilAccueilImprimerImprimer