機械の中の学習日誌

社畜によるIT技術メモです。今日も元気です。

心理統計まとめ - 6-

前回のつづき

syunkan81.hatenablog.com

6章「2つの平均を比べよう(t検定)

t検定による平均値の比較

2つの平均値の比較のためのt検定の例

  • 「男女で恋愛感情得点に差があるのか」というリサーチ・クエスチョン
  • 「新しい指導方法の効果を確かめるために、実験群には新しい指導方法を行い、統制群には旧来の指導方法を行うという比較実験を行った。このとき2群のテスト得点に差があるか」というリサーチクエスチョン
  • 「小学3年生と6年生では、外向性に違いがあるか」というリサーチ・クエスチョン

独立な2群の平均値差に関するt検定

母集団分布の仮定

ある変数Xについて、2つの群(第1群、第2群)のXの標本平均( \bar{X} _ {1} \bar{X} _ {2})を用いて、母平均 \mu _ {1} \mu _ {1}の差について推測を行うことを考える。

2群の母集団分布の分散についてはそれらが互いに等しいという仮定をおき、第1群と第2群の母集団分布として、 N( \mu _ {1} ,  \sigma^{2}), N( \mu _ {2} ,  \sigma^{2}) を仮定する。

平均値差の標本分布

ここで2群の平均値差に統計的な優位差があるかを見たい。この場合、標本平均の差 \bar{X} _ {1} - \bar{X} _ {2} についての標本分布を考える。この標本分布もまた正規分布になる。

 \bar{X} _ {1} -  \bar{X} _ {2} \sim N( \mu _ {1} - \mu _ {2}, \sigma^ {2} ( \frac{1}{n _ {1} } + \frac{1}{n _ {2} } ) ))

検定統計量と帰無分布

前述の正規分布を標準化する。標準化を行うことによって、標準正規分布 N(0, 1)に従うようになる。

 \frac{ \bar{X} _ {1} -  \bar{X} _ {2} - ( \mu _ {1} - \mu _ {2} ) } {\sigma^ {2} ( \sqrt{ \frac{1}{n _ {1} } + \frac{1}{n _ {2} }}) }  \sim N(0,1)

ここで、2群の母集団平均が等しいと仮定しているので、 \mu _ {1} = \mu _ {2} となることから、帰無仮説が正しいときの検定統計量は、以下のようになる。

 t = =  \frac{ \bar{X} _ {1} -  \bar{X} _ {2} } {\sigma^ {2} ( \sqrt{ \frac{1}{n _ {1} } + \frac{1}{n _ {2} }}) }

ただし、未知の値である母標準偏差σは通常知ることは出来ないので、他の値で推定しなければならない。まず2つの群に共通な母分散の推定量として、以下を考える。

 \hat{\sigma} ^ {2} _ {pooled} = \frac{(n _ {1} - 1) \hat{\sigma} ^ {2} _ {1} + (n _ {2} - 1) \hat{\sigma} ^ {2} _ {2} }{ n _ {1} + n _ {2} - 2 }

  •  \hat{\sigma} ^ {2} _ {1} :第1群の不偏分散
  •  n _ {1} :第1群のサンプルサイズ
  •  \hat{\sigma} ^ {2} _ {2} :第2群の不偏分散
  •  n _ {2} :第2群のサンプルサイズ
  •  \hat{\sigma} ^ {2} _ {pooled} :2群をプールした分散。2群に共通の母分散\sigma ^ {2} の不偏推定量になっている。つまりこの推定量の期待値は母数に一致する。

以上から検定統計量の式は以下のようになる。

  t =  \frac{ \bar{X} _ {1} -  \bar{X} _ {2} } {\hat{\sigma} _ {pooled} ( \sqrt{ \frac{1}{n _ {1} } + \frac{1}{n _ {2} }}) }  = \frac{ \bar{X} _ {1} -  \bar{X} _ {2} } { \sqrt{  \frac{(n _ {1} - 1) \hat{\sigma} ^ {2} _ {1} + (n _ {2} - 1) \hat{\sigma} ^ {2} _ {2}  }{ n _ {1} + n _ {2} - 2 } ( \frac{1}{n _ {1} } + \frac{1}{n _ {2} } ) } }

tは自由度  df = n _ {1} + n _ {2} - 2のt分布に従う。

対応のあるt検定

対応のある・なし 2群への被験者の割り当て 2群の間の関係 データの例 用いる検定
対応なし
(独立な2群)
全くランダムに割り当てる 無関係 学籍番号の奇数・偶数で分ける 独立な2群のt検定
対応あり
(対応のある2群)
・まずペアを作った後、それぞれの群に割り当てる。
・すべての被験者を両方ともに割り当てる。
一般に正の相関がある ・成績が同程度の被験者をペアにする
・双子
・同一被験者が複数の条件を経験する
対応のあるt検定

検定統計量

 t =  \frac{\bar{D} - \mu _ {D} } { \hat{\sigma} _ {D} / \sqrt{n}  }

  •  \bar{D} : 2群のデータの差得点の平均

tは自由度  df = n - 1のt分布に従う。

t検定の前提条件とウェルチの検定

t検定の前提条件

  1. 標本抽出が無作為に行われていること(無作為抽出)
  2. 各群の母集団の分布が正規分布に従っていること(正規性)
  3. 2つの母集団が分散が等質であること(分散の等質性)

分散の等質性の検定

分散の等質性が満たされているかを確認するための検定の例

[参考]

https://personal.hs.hirosaki-u.ac.jp/pteiki/research/stat/anova/homogene.html https://staff.aist.go.jp/t.ihara/levene.html

分散の等質性が満たされないとき

通常のt検定とはウェルチの検定など別の方法で検定を行う必要がある。

[参考]

heycere.com