機械の中の学習日誌

社畜によるIT技術メモです。今日も元気です。

心理統計 まとめ -3-

前回からの続き syunkan81.hatenablog.com

3章まとめ

散布図

2つの変数の関係を見る。

  • 右肩上がりの図:正の相関関係がある
  • 右下下がりの図:負の相関関係がある
  • U字型曲線相関:xが大きくなると、前半はyは小さくなり、後半はyが大きくなる
  • 逆U字型曲線相関:U字型曲線の逆パターン
  • 無相関:規則性がとくにみられないもの

共分散

「平均からの偏差の積{(x_i - \bar{x})(y_i - \bar{y})}」の平均

{ Cov(x,y) = s_{xy} = \frac{(x_1 - \bar{x})(y_1 - \bar{y}) + \cdots + (x_n - \bar{x})(y_n - \bar{y})}{n}  }

f:id:syunkan81:20191126090440p:plain

  • ■はx,yが両方とも平均を上回るか下回るか。
  • ■がたくさんあると散布図は右肩上がりになる。(共分散の値はプラス。正の相関)
  • ●はx,yのどちらかが平均を上回り、もう片方が平均を下回る。
  • ●がたくさんあると散布図は右下下がりになる。(共分散の値はマイナス。負の相関)
  • 共分散の絶対値が大きいほど右肩上がりor右下下がりの傾向が強いということ。
  • ただし、数値の単位に依存する。

相関係数

ピアソンの積率相関係数

{  r = \frac{ s_{xy} }{s_x s_y} }

{ s_{xy} } :共分散

{ s_x, s_y }標準偏差

相関係数の大きさ

相関係数 関係の強さ
0 < |r| ≦ 0.2 ほとんど相関なし
0.2 < |r| ≦ 0.4 弱い相関あり
0.4 < |r| ≦ 0.7 中程度の相関あり
0.7 < |r| ≦ 1.0 強い相関あり

相関係数の性質

外れ値の影響

相関係数は外れ値の影響を受ける。全体で相関係数が高くても外れ値を除くと相関が低い場合がある。

散布図を描いて外れ値が含まれていないかどうかを確認することが大切。

疑似相関

2つの変数xとyに本当は相関はないのにもかかわらず、第3の変数zの存在によりあらわれる、見せかけの相関。

データの層別化

相関係数は集団の性質によって変化する。相関係数を解釈するときはどのような集団に基づいて計算されたのかを考慮する必要がある。

例) グループ1、グループにそれぞれで相関をとると負の相関であるが、全体で相関を見ると正の相関になる場合がある。

選抜効果

集団の一部だけで相関係数を計算すると小さくなる傾向にある。切断効果ともいう。

相関係数と因果関係

相関係数と因果関係は違う。

相関が強くても必ずしも2つの変数の間に因果関係があると言ことではない。

因果関係は、Aが起こればBがおきるという「A⇒B」という方向性があるが相関係数にはない。

クロス集計表と連関係数

相関と連関

  • 相関:量的変数同士の関係
  • 連関:質的変数同士の関係
2変数の関係 関係の名称 用いず図表 指標
量的変数と量的変数の関係 相関 散布図 相関係数
質的変数と質的変数の関係 連関 クロス集計表 連関係数

クラメールの連関係数

{ V = \sqrt{ \frac{\chi ^2}{(行数と列数で小さい方の値 - 1) \times n}} }

{ \chi ^2} はカイ2乗値。カイ2乗検定で出てくる。

ファイ係数

2×2クロス集計表の場合に用いられることがある係数

相関係数の特別な場合で、-1から1までの間をとる。解釈も同様。

A B

{ \phi = (① \times ④ - ② \times ③ ) \div \sqrt{⑤ \times ⑥ \times ⑦ \times ⑧ } }

{ ファイ係数の絶対値 = クラメールの連関係数}