分散と標準偏差について
分散と標準偏差についてまとめます。
偏差とは
変量$x$の$n$個の各値\(x_1,x_2,..,x_n\)と平均値\(\displaystyle \overline{x}\)の差\(x_1 - \overline{x},x_2 - \overline{x} ...,x_n - \overline{x}\)
をそれぞれ\(x_1,x_2,...,x_n\)の平均値からの偏差という。
分散:\(s^2\)とは
分散はデータの平均値からの散らばりの度合いを表す量であり、データの各値が平均値から離れるほど大きな値となる。
偏差の2乗の平均値であり
\(\displaystyle s^2 = \frac{1}{n}\{(x_1 - \overline{x})^2 + (x_2 - \overline{x})^2 + ... + (x_n - \overline{x})^2\}\)
で表されます。
分散の公式
また、分散を求めるには以下の公式があります。
\(\displaystyle s^2 = \overline{x^2} - (\overline{x})^2\)
文章に置き換えると
$xの分散 = (x^2の平均値) - (xの平均値)^2$
$\overline{x}$が整数でない場合、上記の公式を使った方が計算が早くなるので、覚えておくと良いです。
分散の公式の証明
愚直に分散の定義式を展開してまとめることで、公式を求めることができます。
$\displaystyle s^2 = \frac{1}{n}\{(x_1 - \overline{x})^2 + (x_2 - \overline{x})^2 + \cdot \cdot \cdot + (x_n - \overline{x})^2\}$
$\displaystyle = \frac{1}{n}\{(x_{1}^{2} + \cdot \cdot \cdot + x_{n}^{2}) - 2 \overline{x}(x_1 + \cdot \cdot \cdot + x_n) + n(\overline{x})^2\}$
$\displaystyle = \frac{1}{n} (x_{1}^{2} + \cdot \cdot \cdot + x_{n}^{2}) - 2 \overline{x} \cdot \dfrac{1}{n}(x_1 + \cdot \cdot \cdot + x_n) + (\overline{x})^2$
ここで、別個で式を見ていくと
$\displaystyle = \frac{1}{n} (x_{1}^{2} + \cdot \cdot \cdot + x_{n}^{2})$は$x^2$の平均値と捉えることができるので、$\overline{x^2}$
$\displaystyle = \dfrac{1}{n}(x_1 + \cdot \cdot \cdot + x_n)$は$x$の平均値と捉えることができるので、$\overline{x}$
以上よりまとめると
$\displaystyle = \overline{x^2} - 2 \overline{x} \cdot \overline{x} + (\overline{x})^2 = \overline{x^2} - (\overline{x})^2 $
分散の展開式をイメージすることで、分散の公式を想定できるようにすると忘れないと思います。
標準偏差:$s$
分散の正の平方根で、
\(\displaystyle s = \sqrt{\frac{1}{n}\{(x_1 - \overline{x})^2 + (x_2 - \overline{x})^2 + ... + (x_n - \overline{x})^2\}}\)
\(\displaystyle = \sqrt{\overline{x^2} - (\overline{x})^2}\)
分散は\(s^2\)で表すので、
測定単位が$m$のとき、分散の単位は\(m^2\)、標準偏差の単位は$m$になります。
初版:2021/8/19