Variance / Écart type
Variance
Une façon intéressante d'introduire la notion de variance est de considérer deux populations d'une classe avec leurs notes
Exemple :
Les notes xi des n candidats du groupe 1 et les notes yi des m candidats du groupe 2 sont les suivantes :

Lorsqu'on calcule la moyenne
du groupe 1 ou la moyenne
du groupe 2, on trouve le même résultat avec une moyenne de 10. Cela nous force à pousser notre description au-delà des tendances centrales pour mieux caractériser chaque population.
L'objectif de la variance est de mesurer l'homogénéité de la population. Lequel des deux groupes apparaît le plus homogène ?
La réponse est tout naturellement le second groupe. Mais comment mesurer mathématiquement cette homogénéité ?
Tout d'abord, on peut regarder l'intervalle dans lequel sont comprises les valeurs. Il est de 12 pour le groupe 1 alors qu'il n'est que de 8 pour le groupe 2. Cela confirme notre intuition.
Pourtant, assez rapidement, nous nous rendons compte que cette méthode n'est pas suffisante dans certains cas. Imaginons la répartition suivante des notes:

Ici la moyenne est de 10 et l'intervalle de 12. Donc pourquoi ne pas supposer que ce groupe serait moins homogène que les deux précédents ?
Bien sûr, pour être valable, l'évaluation de l'homogénéité doit prendre en compte tous les individus d'une population. Ne s'intéresser qu'aux extrêmes serait trompeur.
Etant donné que la moyenne représente un tendance cenrtale pour une distribution, il semble intéressant de regarder "a quelle distance" du centre se trouve chaque membre de chaque population.
Pour cela, on fait la somme des différences entre les notes et la moyenne soit
, ce qui donnera une meilleur idée de l'homogénéité.
Mais en utilisant cette méthode, on voit que le fait que
est soit positif, soit négatif, peut annuler cette somme. En effet, dans notre exemple,
.
Pour éviter ce problème, on pourrait faire la somme des valeurs absolues des différences, soit
, mais comme la valeur absolue est une notion peu évidente à maîtriser en mathématiques (elle n'est pas dérivable), on préférera faire la somme des carrés des différences soit
.
Lorsqu'on fait l'application numérique aux deux exemples, on trouve que
et
.
Cela signifierait que le groupe 1 est plus homogène, ce qui est contraire à l'observation. Mais la différence vient du nombre de candidats différent pour les deux groupes. Pour pouvoir les comparer, on prendra alors la moyenne des carrés des différences entre les notes et la moyenne, soit
.
C'est cette valeur que l'on appelle variance, et que l'on note V (X).
Dans l'exemple, on trouve 24, 5 comme variance du groupe 1 et 10, 4 comme variance du groupe 2.
Ainsi, on peut conclure que plus la variance est importante, moins la population est homogène, ce que l'on retrouve naturellement dans nos deux exemples.
Enfin, l'ordre de grandeur de la variance n'est pas significatif du fait que l'on ait pris les carrés des différences.
En résumé, on a la formule suivante :
V(X)=![]()
Mais pour le calcul, on utilisera cette formule équivalente :
![]()
En effet :
![]()
![]()
![]()
![]()
Ecart type
La formule de la variance permet de quantifier l'homogénéité de manière satisfaisante. Cependant, nous avons abordé le fait que l'utilisation du carré de valeurs, bien qu'indispensable, venait fausser les résultats numériques. Par exemple si nous traitons la variable "âge" en années, l'unité de la variance sera années², une notion que votre employeur aura du mal à évaluer intuitivement. Nous cherchons donc un ordre de grandeur plus proche de la réalité pour caractériser nos données.
On utilisera pour cela l'écart-type noté également σ qui correspond à la racine carré de la variance, soit σ =
.
On trouve donc dans nos deux exemples 4,95 comme écart-type pour le groupe 1 et 3,22 comme écart-type pour le groupe 2.
On peut traduire cela en disant qu'en moyenne, les notes du groupe 1 sont éloignées de 4,95 points de la moyenne calculée à 10.
En résumé, montrons comment présenter le tableau permettant de calculer l'écart-type du groupe 2.

Et donc σ =
.
Dans tout ce chapitre, nous avons étudié la variance et l'écart-type pour des séries discrètes.
Pour des séries continues, la méthode est la même que pour calculer la moyenne d'une série continue. Il suffit de prendre une valeur particulière pour chaque classe, en l'occurrence le centre de la classe.




