基本的な統計量まとめ
統計学における基本的な統計量
統計学の勉強で最初から躓くのが、基本的な統計量の意味と計算式の理解です。
こんがらがるので、備忘録的に。
ここで扱うのは、平均・偏差・分散・標準偏差・共分散・相関係数です。
平均
平均はデータの合計をデータの個数で割ったものです。
平均の例
以下のようなデータであった場合の平均値を求める場合
名前 | 数学 |
---|---|
A | 100 |
B | 40 |
C | 10 |
偏差
偏差は各データの平均との差です。
偏差の例
以下のようなデータであった場合の偏差を求める場合
名前 | 数学 | 偏差 |
---|---|---|
A | 100 | 100 - 50 = 50 |
B | 40 | 40 - 50 = -10 |
C | 10 | 10 - 50 = -40 |
分散
分散はデータの散らばりを示します。
求め方は偏差の2乗の平均です。
分散の例
以下のようなデータであった場合の分散を求める場合
名前 | 数学 | 偏差 |
---|---|---|
A | 100 | 50 |
B | 40 | -10 |
C | 10 | -40 |
標準偏差
標準偏差は、分散同様にデータの散らばりを示します。
求め方は分散の平方根です。
分散はその単位の2乗であるため、分散同士を比較する場合に直感的ではありません。
標準偏差は分散をその単位に戻したものであるため、比較の際に扱いやすいという利点があります。
標準化変量
元データから平均値が0になるように変換した値が偏差であったことに対して、標準化変量はさらに標準偏差が1になるように変換した値です。
そのため、値のばらつき(値の差)を小さくしたものでもあります。
求め方は偏差を標準偏差で割ります。
標準化変量の例
以下のようなデータであった場合の標準化変量を求める場合
名前 | 数学 | 偏差 | 標準化変量 |
---|---|---|---|
A | 100 | 50 | 50 / 37.416 = 1.336 |
B | 40 | -10 | -10 / 37.416 = -0.267 |
C | 10 | -40 | -40 / 37.416 = -1.069 |
共分散
ここまでは1種類のデータでしたが、ここからは2組の対応するデータの場合です。
分散がデータの散らばりを示すのに対し、共分散は2つのデータの関連性を示します。
求め方は2変数の偏差の積の平均です。
共分散の求め方は分散の2種類データ版とも言えますが、意味が異なる点に注意です。
共分散が正であれば2変数は比例の関係にあり、共分散が負であれば2変数は反比例の関係にあります。
共分散の例
以下のようなデータであった場合の共分散を求める場合
名前 | 数学 | 数学の偏差 | 英語 | 英語の偏差 |
---|---|---|---|---|
A | 100 | 50 | 80 | 10 |
B | 40 | -10 | 70 | 0 |
C | 10 | -40 | 60 | -10 |