Écart type

Un article de Wikipédia, l'encyclopédie libre.

Vous avez de nouveaux messages (diff ?).

Sommaire

[modifier] En statistique élémentaire

L'écart type (ou déviation standard ou écart quadratique moyen) est un critère de dispersion. Il mesure l'écart à la moyenne observée (et non à la moyenne théorique) et correspond à la moyenne quadratique des écarts entre les valeurs observées et la moyenne de ces valeurs observées. Il se note avec la lettre de l'alphabet grec, σ (sigma minuscule), ou parfois Δ (Delta majuscule) .

Formules : on trouve les formules suivantes

  • \sigma=\sqrt{\frac{1}{n}\sum_{i=1}^n(x_i-\overline{x})^2}=\sqrt{\frac{1}{n}\left(\sum_{i=1}^nx_i^2\right)-\overline{x}^2} dans le cas d'une série discrète non regroupée.
  • \sigma=\sqrt{\frac{\sum_{i=1}^nn_i(x_i-\overline{x})^2}{\sum_{i=1}^nn_i}}=\sqrt{\sum_{i=1}^nf_i(x_i-\overline{x})^2} dans le cas d'une série discrète regroupée.
  • \sigma=\sqrt{\frac{\sum_{i=1}^nn_i(m_i-\overline{x})^2}{\sum_{i=1}^nn_i}}=\sqrt{\sum_{i=1}^nf_i(m_i-\overline{x})^2} dans le cas d'une série continue.

xi sont les valeurs du caractère, ni les effectifs, fi les fréquences, mi les milieux des classes et \overline{x} la moyenne

[modifier] Illustrations simples de la première formule

La première formule est surprenante à première vue. Quelques exemples simples permettent de la comprendre. On peut raisonner sur le carré de l'écart-type c'est à dire σ2.

\sigma ^2   =   \frac{1}{n}\sum_{i=1}^n(x_i-\overline{x})^2  =  \frac{1}{n}\left(\sum_{i=1}^nx_i^2\right)-\overline{x}^2*n

[modifier] Avec une population de 2 individus

Soit une population de 2 individus seulement, de valeur a et b. La moyenne \overline{x}, que l'on appelle aussi m est bien sûr la demi-somme m=(1/2)(a+b).
σ2 s'écrit simplement (1/2)[ (a-m)² + (b-m)²] que l'on peut chercher à exprimer de manière plus simple et plus esthétique. Simple dans le sens où n'apparaîtront que a et b, esthétique dans la mesure où n'appaîtront que des expressions symétriques en a et b, c'est à dire (a+b) et ab, somme et produit, que l'on notera S et P.
La moyenne est m= (1/2)S.
Le carré de la moyenne est m²= (1/4)S².
(a-m) est égal à, calcul facile, (1/2)(a-b)
(b-m) avec le même calcul est (1/2)(b-a), comme ces quantités sont à élever au carré ce n'est pas gênant de travailler sur (a-b) ou sur (b-a).
transformons esthétiquement ce carré par un jeu sur les identités remarquables classiques: (a-b)²=(a+b)²-4ab =S²-4P
d'où le premier membre de l'égalité σ2 = (1/2)[ (a-m)² + (b-m)²]= 1/2[(1/2)²(S²-4P)+(1/2)²(S²-4P)]= (1/4)(S²-4P).
Le deuxième membre de l'égalité proposée est =  \frac{1}{n}(\sum_{i=1}^nx_i^2)-\overline{x}^2 = ici à (1/2) (a² +b²)- m². Que nous pouvons réécrire ainsi, puisque a²+b²= (a+b)²-2ab=S²-2P :
=  \frac{1}{n}\left(\sum_{i=1}^nx_i^2\right)-\overline{x}^2=(1/2) (a² +b²)- m²= (1/2) (S²-2P) - (1/4)S²= (1/2)S² - (1/4)S² -(1/2)2P= (1/4)S²-P qui est bien égal à (1/4)(S²-4P). CQFD.

[modifier] Avec la notion de barycentre

Considérons n points d'un axe x'Ox, par exemple 3 points A B C, affectés des poids égaux a=1,b=1,c=1. soit G leur barycentre. La définition du barycentre au premier degré est équivalente au calcul de la moyenne, et si nous appliquons la formule du second degré (qui découle de l'annulation des doubles produits) du Barycentre nous pouvons faire le lien avec l'écart type. En effet, en termes de barycentre nous avons les deux formules:

a\overrightarrow{MA} + b\overrightarrow{MB} + c\overrightarrow{MC} = (a+b+c)\overrightarrow{MG}
a\overrightarrow{MA}^2 + b\overrightarrow{MB}^2 + c\overrightarrow{MC}^2 = (a+b+c){MG}^2+(a{GA}^2 + b{GB}^2 + c{GC}^2)
si les poids sont de 1:
\overrightarrow{MA} + \overrightarrow{MB} + \overrightarrow{MC} = (3)\overrightarrow{MG}
\overrightarrow{MA}^2 + \overrightarrow{MB}^2 + \overrightarrow{MC}^2 = (3){MG}^2+({GA}^2 + {GB}^2 + {GC}^2)
et en faisant passer le coefficient 3 au dénominateur
\frac{ 1}{3 }   (\overrightarrow{MA} + \overrightarrow{MB} + \overrightarrow{MC} )= \overrightarrow{MG}
\frac{ 1}{3 }(\overrightarrow{MA}^2 + \overrightarrow{MB}^2 + \overrightarrow{MC}^2) = {MG}^2+\frac{ 1}{3 }({GA}^2 + {GB}^2 + {GC}^2)
Si nous prenons pour point M l'origine O des abscisses
\frac{ 1}{3 }   (\overrightarrow{OA} + \overrightarrow{OB} + \overrightarrow{OC} )= \overrightarrow{OG}
\frac{ 1}{3 }(\overrightarrow{OA}^2 + \overrightarrow{OB}^2 + \overrightarrow{OC}^2) = {OG}^2+\frac{ 1}{3 }({GA}^2 + {GB}^2 + {GC}^2)
si nous réarrangeons un peu les équations
\overrightarrow{OG}  = \frac{ 1}{3 }   (\overrightarrow{OA} + \overrightarrow{OB} + \overrightarrow{OC} )
\frac{ 1}{3 }({GA}^2 + {GB}^2 + {GC}^2) = \frac{ 1}{3 }(\overrightarrow{OA}^2 + \overrightarrow{OB}^2 + \overrightarrow{OC}^2) - {OG}^2
Le passage aux racines carrées donne bien la première formule de l'écart type
moyenne  :\overrightarrow{OG}  = \frac{ 1}{3 }   (\overrightarrow{OA} + \overrightarrow{OB} + \overrightarrow{OC} )
écart type :\sigma  =   \sqrt{ \frac{ 1}{3 }({GA}^2 + {GB}^2 + {GC}^2)  } =\sqrt{\frac{ 1}{3 }(\overrightarrow{OA}^2 + \overrightarrow{OB}^2 + \overrightarrow{OC}^2) - {OG}^2    }

[modifier] En probabilité

L'écart type mesure la dispersion d'une variable aléatoire autour de son espérance E(X). Il se calcule sous plusieurs formes

[modifier] En théorie des sondages

Lorsqu'il s'agit d'estimer la dispersion autour de la moyenne d'un caractère statistique dans une population de grande taille à partir d'un échantillon de taille n, on utilise pour l'écart type la valeur suivante

s=\sqrt{\frac{1}{n-1}\sum_{i=1}^n(x_i-\overline{x})^2}.

On peut remarquer que

s = \sigma\sqrt{\frac{n}{n-1}}

[modifier] Pourquoi n-1 ?

La question que l'on se pose généralement est « Pourquoi n - 1 ? ». La raison pour laquelle on divise par n - 1 au lieu de n est un bel exemple de l'interaction permanente entre les statistiques et les probabilités.

Le sondage de n individus correspond à une série de n variables aléatoires xi indépendantes d'espérance E(X) et de variance V(X).
La moyenne \overline{x} de l'échantillon est une variable aléatoire d'espérance E(X) et de variance \frac{1}{n} \cdot V(X) (la moyenne de n variables aléatoires fluctue moins qu'une seule variable aléatoire).
La variance v de l'échantillon est une variable aléatoire dont on veut calculer l'espérance.
v=\left(\frac{1}{n}\sum x_i^2\right) - \overline{x}^2.
x_i^2 est une variable aléatoire d'espérance E(x_i^2) = E(x_i)^2 + V(x_i) donc égale à E(X)2 + V(X).
\frac{1}{n}\sum x_i^2 est une variable aléatoire d'espérance E(X)2 + V(X).
\overline{x}^2 est une variable aléatoire d'espérance E(\overline{x})^2+V(\overline{x})=E(X)^2+\frac{1}{n}V(X) .
Donc E(v) = E(X)^2+V(X) - E(X)^2-\frac{1}{n}V(X)=\frac{n-1}{n}V(X).
La variance v de l'échantillon fluctue donc autour de \frac{n-1}{n}V(X) et non autour de V(X) comme on aurait pu s'y attendre.
Pour obtenir une estimation de V(X), il est donc nécessaire de prendre \frac{n}{n-1}v. On pourrait dire que v est un estimateur biaisé.
Et pour obtenir une estimation de l'écart type σ(X), il est nécessaire de prendre \sigma \sqrt{\frac{n}{n-1}}.

[modifier] Aspect qualitatif

Plus communément appelée écart-type, la déviation standard caractérise la largeur de la distribution. Elle est exprimée mathématiquement comme étant la racine carrée de la variance, celle-ci mesurant la distribution des valeurs autour du centre de la courbe.

Écart-type (S) = Racine carrée de la variance

  • L'écart-type est la mesure de dispersion, ou étalement, la plus couramment utilisée en statistique lorsqu'on emploie la moyenne pour calculer une tendance centrale. Il mesure donc la dispersion autour de la moyenne. En raison de ses liens étroits avec la moyenne, l'écart-type peut être grandement influencé si cette dernière donne une mauvaise mesure de tendance centrale.
  • Contrairement à l'étendue et aux quartiles, la variance permet de combiner toutes les valeurs à l'intérieur d'un ensemble de données afin d'obtenir la mesure de dispersion. La variance (symbolisée par S²) et l'écart-type (la racine carré de la variance, symbolisée par S) sont les mesures de dispersion les plus couramment utilisées.

La variance est définie comme étant la moyenne arithmétique des carrés des différences entre les valeurs observées et la moyenne. C'est une mesure du degré de dispersion d'un ensemble de données. On la calcule sous la forme de l'écart au carré moyen de chaque nombre par rapport à la moyenne d'un ensemble de données.

[modifier] Répartition de la population

Lorsque la variable étudiée est gaussienne (répartition selon une courbe en cloche), l'écart-type permet de déterminer la répartition de la population autour de la valeur moyenne.

Par exemple : Si par convention, la déviation standard par rapport à un échantillon équivaut à 15 points de QI de différence, cela signifie que les 2/3 environ de la population d'une classe d'âge ont un QI compris entre 85 et 115 --> Voir QI et intervalle de confiance

[modifier] Interprétation d'un écart type élevé

Généralement, plus les valeurs sont largement distribuées, plus l'écart-type est élevé. Imaginez, par exemple, que nous devons séparer deux ensembles différents de résultats d'examens de 30 élèves; les notes du premier examen varient de 31 % à 98 % et celles du second, de 82 % à 93 %. Compte tenu de ces étendues, l'écart-type serait plus grand pour les résultats du premier examen.

Cependant, il n'est pas toujours facile d'évaluer l'importance que doit avoir l'écart-type pour que les données soient largement dispersées.
L'importance de l'écart-type dépend aussi de l'importance de la valeur moyenne de l'ensemble des données. Lorsque vous mesurez quelque chose en millions, le fait d'avoir des mesures qui se rapprochent de la valeur moyenne n'a pas la même signification que si vous mesurez le poids de deux personnes.
Par exemple, si après avoir mesuré les recettes annuelles de deux grandes entreprises, vous constatez un écart de 100 000 euros, la différence est considérée comme étant peu significative, alors que si vous mesurez le poids de deux personnes, dont l'écart est de 30 kilogrammes, la différence est considérée comme étant très significative.
Voilà pourquoi il est parfois utile de travailler, dans certains cas, sur l'écart type relatif (écart-type quotienté par la moyenne).


On nomme variance le carré de l'écart type : V(X) = σ2

[modifier] Voir aussi