分散と標準偏差について
まずは統計の基本中の基本のうちのひとつ分散について。
分散はデータがどの程度平均の周りにばらついているかを表す。
分散が小さいほどデータの値は平均値に集まっているということを、逆に大きいほどデータの値が平均値からばらついていることを表す。
分散は
『各データと平均値の差』の2乗の和の平均
で示すことができる。
まず超簡単な表でやってみる。
データAは平均が3なのでそれぞれの差は
2 1 0 1 2
となり、その2乗は
4 1 0 1 4
となる。
この平均になるので
10÷5=2
となり、データAの分散は2である。
次にデータBについても平均は3なので
それぞれの差はすべて0となり、分散も0になる。
2>0なのでデータAの方がばらついていることがわかる(当たり前)。
分散はこれで終わりである。定義さえ覚えれば難しくはない。
ちなみに、
各データと平均値の差のことを『偏差』
各データと平均値の差の絶対値の平均のことを『平均偏差』
という。
細かく考えればわかるが偏差の和は常に0である。
つぎに標準偏差である。
これのみである。
標準偏差が平方根をとっているのは、分散はそもそも2乗した値なので足したり引いたりはできない。なので平方根をとってみようと。それが標準偏差ということになる。
なので標準偏差も分散と同様、ばらつきの程度を示すことになる。
英語ではStandard deviationと呼び、SDと略される。