備忘録録

物忘れが酷い

基本的な統計量まとめ

統計学における基本的な統計量

統計学の勉強で最初から躓くのが、基本的な統計量の意味と計算式の理解です。
こんがらがるので、備忘録的に。

ここで扱うのは、平均・偏差・分散・標準偏差・共分散・相関係数です。

平均

平均はデータの合計をデータの個数で割ったものです。

 \overline{x} = \frac{1}{n} \sum_{i=1}^{n} x_{i}

平均の例

以下のようなデータであった場合の平均値を求める場合

名前 数学
A 100
B 40
C 10


 \overline{x} = \frac{(100 + 40 + 10)}{3} = 50

偏差

偏差は各データの平均との差です。

 偏差 = x_{i} - \overline{x}

偏差の例

以下のようなデータであった場合の偏差を求める場合

名前 数学 偏差
A 100 100 - 50 = 50
B 40 40 - 50 = -10
C 10 10 - 50 = -40


分散

分散はデータの散らばりを示します。
求め方は偏差の2乗の平均です。

 s^2 = \frac{1}{n} \sum_{i=1}^{n} (x_{i} - \overline{x})^2  \\
 s^2 = \frac{1}{n} \sum_{i=1}^{n} (偏差)^2  \\

分散の例

以下のようなデータであった場合の分散を求める場合

名前 数学 偏差
A 100 50
B 40 -10
C 10 -40


 s^2 = \frac{( 50^2 + (-10)^2 + (-40)^2 )}{3} = 1400

標準偏差

標準偏差は、分散同様にデータの散らばりを示します。
求め方は分散の平方根です。
分散はその単位の2乗であるため、分散同士を比較する場合に直感的ではありません。
標準偏差は分散をその単位に戻したものであるため、比較の際に扱いやすいという利点があります。

 s = \sqrt{x^2}

標準偏差の例

以下のようなデータであった場合の標準偏差を求める場合

名前 数学 偏差
A 100 50
B 40 -10
C 10 -40


 s^2 = \frac{( 50^2 + (-10)^2 + (-40)^2 )}{3} = 1400 \\
 s = \sqrt{1400} \fallingdotseq 37.416

標準化変量

元データから平均値が0になるように変換した値が偏差であったことに対して、標準化変量はさらに標準偏差が1になるように変換した値です。
そのため、値のばらつき(値の差)を小さくしたものでもあります。
求め方は偏差を標準偏差で割ります。

 z_{i} = \frac{ x_{i} -\overline{x}}{s} \\
 z_{i} = \frac{ x-平均 }{ 標準偏差 } \\
 z_{i} = \frac{ 偏差 }{ 標準偏差 }

標準化変量の例

以下のようなデータであった場合の標準化変量を求める場合

名前 数学 偏差 標準化変量
A 100 50 50 / 37.416 = 1.336
B 40 -10 -10 / 37.416 = -0.267
C 10 -40 -40 / 37.416 = -1.069


共分散

ここまでは1種類のデータでしたが、ここからは2組の対応するデータの場合です。
分散がデータの散らばりを示すのに対し、共分散は2つのデータの関連性を示します。
求め方は2変数の偏差の積の平均です。
共分散の求め方は分散の2種類データ版とも言えますが、意味が異なる点に注意です。
共分散が正であれば2変数は比例の関係にあり、共分散が負であれば2変数は反比例の関係にあります。

 s_{xy} = \frac{1}{n} \sum_{i=1}^{n} (x_{i} - \overline{x})(y_{i} - \overline{y}) \\
 s_{xy} = \frac{1}{n} \sum_{i=1}^{n} (x_{i}の偏差)(y_{i}の偏差)

共分散の例

以下のようなデータであった場合の共分散を求める場合

名前 数学 数学の偏差 英語 英語の偏差
A 100 50 80 10
B 40 -10 70 0
C 10 -40 60 -10


 s_{xy} = \frac{ 50 \times 10 + (-10) \times 0 + (-40) \times (-10) }{3} = 300

相関係数

相関係数はその名の通り、2変数の相関具合を示すものです。
求め方は共分散をそれぞれの標準偏差で割ります。
共分散は単位を変えることで値が変動してしまうという欠点がありますが、相関係数は単位の影響を無効にできます。(無名数化)

 r = \frac{ s_{xy} }{ s_{x} s_{y} } \\
 r = \frac{ 共分散 }{ xの標準偏差 \cdot yの標準偏差 }

相関係数の例

以下のようなデータであった場合の相関係数を求める場合

名前 数学 数学の偏差 英語 英語の偏差
A 100 50 80 10
B 40 -10 70 0
C 10 -40 60 -10


 s_{xy} = \frac{ 50 \times 10 + (-10) \times 0 + (-40) \times (-10) }{3} = 300 \\
 s_{x} =  \sqrt{ \frac{ 50^2 + (-10)^2 + (-40)^2 }{3} } = \sqrt{ 1400 } \fallingdotseq 37.416 \\
 s_{x} =  \sqrt{ \frac{ 10^2 + 0^2 + (-10)^2 }{3} } = \sqrt{ \frac{ 200 }{3} } \fallingdotseq 8.164 \\
 r = \frac{ 300 }{ 37.416 \cdot 8.164 }

学力偏差値(おまけ)

日本で一般的に用いられる学力の偏差値は、平均点を50・標準偏差を10に対応させて正規化したものです。

 偏差値 = \frac{ 偏差 \times 10 }{ 標準偏差 } + 50

学力偏差値の例

以下のようなデータであった場合の相関係数を求める場合

名前 数学 偏差 標準偏差 偏差値
A 100 50 37.4 (50 * 10) / 37.4 + 50= 63.3
B 40 -10 37.4 (-10 * 10) / 37.4 + 50 = 47.3
C 10 -40 37.4 (-40 * 10) / 37.4 + 50 = 39.3




挫けそう\(^o^)/