Z scores
Considérons les données suivantes qui synthétisent les caractéristiques d'un panel de voitures :
Comment situer rapidement une caractéristique d'une voiture par rapport aux autres ? Est-elle proche de la moyenne ou s'en écarte-t-elle significativement ? Comment comparer les distributions de deux variables dont les ordres de grandeurs sont différents ? Les données seraient-elles similaires si l'on travaillait en mph et kW plutôt qu'en km/h et hp ?
En l'état, ces données ne sont que partiellement exploitables. Il faut donc les standardiser.
Définition : Z-score (ou donnée standardizée)
On appelle z-score ou donnée standardisée de x la variable z telle que
où μ et σ sont respectivement la moyenne et l'écart-type de la variable x.
Passer par les z-scores permet de s'affranchir des unités. De plus la moyenne σ(z) vaut 0 et l'écart type μ(z) vaut 1. Enfin les valeurs extrêmes sont inférieures à -2 ou supérieures à 2 (μ-2σ et μ+2σ).
Ainsi, plus besoin de calcul.
Reprenons les données précédentes standardisées :
On peut maintenant étudier plus facilement les données et en déduirze par exemple que le Discovery semble sur-dimensionné, que la Clio V6 est sur-motorisée, ou que la Ferrari Enzo est hors norme.






