機械の中の学習日誌

社畜によるIT技術メモです。今日も元気です。

心理統計 まとめ -4-

前回からの続き

syunkan81.hatenablog.com

4章「標本から母集団を推測しよう」

母集団と標本

  • 推測統計:手元にあるデータ(標本)の背後にあるさらに大きな対象(母集団)について推測することを試みる。
  • 母集団:関心のある対象全体
  • 標本(サンプル):実際に調査や実験を実施した集団
用語 意味
母数 母集団における定数 母集団(有権者全体)の内閣支持率など。全数調査しないと実際の値は不明
標本統計量 標本から計算される値のこと(標本が変われば変動する確率変数)標本平均、標本分散、標本相関係数など 標本の内閣支持率、標本の平均身長など。
標本統計量の実現値 ある特定の標本から実際に計算して求められた数値のこと 実際に手元に得られた標本から計算された内閣支持率の具体的な値など。

母集団分布を仮定する

標本統計量は標本によって変わる。

標本統計量の変動の程度を知るには

(母集団から標本を何度も取り出し、取り出した標本から標本統計量を計算出来る場合)

⇒k回の標本抽出により得られたk個の標本平均を用いて標準偏差を求め、標本平均の変動を知ることができる。

現実にはできないので、標本統計量の変動の大きさを推定することができるような仕組みが必要。

母集団分布を仮定する

母集団分布を仮定することによって標本統計量の分布がどのような分布になるかを数学的に導くことができる。

標本統計の変動の大きさを推定するプロセス

  1. 母集団分布に何らかの確率分布を仮定する
  2. 母集団分布の仮定から標本統計量についての確率分布を導く
  3. 標本分布がどのような確率でどのような値をとるか分かれば、標本統計量の変動を査定できるようになる。

正規分布とその性質

正規分布

平均{\mu}、分散{\sigma ^2}として以下で表す。

{N( \mu , \sigma ^2)}

正規分布標準偏差の関係

  1. 平均±1 標準偏差の中には、全体の68.3%が含まれる
  2. 平均±2 標準偏差の中には、全体の95.4%が含まれる

正規分布は連続の確率分布であるという見方をすれば、以下の形で表現できる。

  1. { P( \mu - \sigma \leqq X \leqq \mu + \sigma) = 0.683}
  2. { P( \mu - 2\sigma \leqq X \leqq \mu + 2\sigma) = 0.954}

標準正規分布

正規分布にも標準化し、標準正規分布 { N(0, 1)}に変換することができる。

{X \sim N( \mu , \sigma ^2) \rightarrow 標準化 Z = \frac{ X - \mu}{\sigma}  \rightarrow Z   \sim N(0, 1 ^2) }

{X \sim N( \mu , \sigma ^2) } :確率変数Xは{N(\mu , \sigma ^2)} に従うという意味。

標準正規分布の特徴

  1. 平均、中央値、最頻値がすべて0になる
  2. Z=0から∞の範囲に全体の50%が入る。同様にZ=-∞から0までの範囲にも全体の50%が入る。

標準正規分布にすることで、標準正規分布表という統一規格を利用することができ、標準正規分布における任意の範囲の全体に対する割合を求めることができる。

標本分布

標本統計量の分布のこと。実際に入手できた標本について作成された度数分布ではないことに注意。

名称 意味 利用される文脈
母集団分布 母集団に属するすべての値の分布。通常母集団のすべての値を知ることは出来ないので、正規分布などの確率分布を仮定する 推測統計
標本分布 標本統計量の分布。母集団分布の仮定より、数理的に導かれる確率分布。 推測統計
度数分布 実際に得られたデータについて作成される。データの値と度数を対応させたもの 記述統計
  • 母集団分布に正規分布を仮定すると、標本平均の標本分布もまた正規分布になる
  • このとき標本分布の平均は母集団の平均(母平均)μに一致する。
  • 分散は一致せず母分散をサンプルサイズnで割ったものになる。

母集団({X \sim N( \mu , \sigma ^2) } )を仮定したときの標本平均

{ \bar{X} \sim N( \mu , \frac{ \sigma ^2}{n} ) }

標準誤差

標本統計量の分布の標準偏差のこと。SE (Standard error)。

{ \sigma_{\bar{X}} = \frac{ \sigma}{\sqrt{n}} }

  • 母数について推測するときの精度を表す
  • 標本の大きさ(n)が大きくなれば標準誤差が小さくなり、推定の精度が良くなる。
  • nが大きくなれば、偏った標本が抽出される可能性が低くなる

推定と推定量

  • 点推定:ひとつの値を用いて母数の推定を行うこと
  • 区間推定:ある一定の区間を設けて、母数の推定を一つの値ではなく区間で行うこと
  • 定量:母数の推定のために用いられる標本統計量
  • 推定値:推定量の実現値。
母数 定量 推定値
母集団平均μ

例)日本の大学生の恋愛感情得点の平均
標本平均{\bar{X}}

例)3人の大学生の恋愛感情得点の平均
標本平均{\bar{X}}の実現値

例)ある具体的な大学生3人の標本から実際に計算された恋愛感情得点の平均
母集団比率π

例)全国の有権者集団における内閣支持率
標本比率ρ

例)有権者1000人の無作為標本の内閣支持率
標本比率ρの実現値

例)ある具体的な有権者1000人の標本から実際に計算された内閣支持率
母集団相関係数ρ

例)全国の中学3年生の数学と理科のテスト得点の相関係数
標本相関係数r

例)中学3年生1000人の無作為標本の数学と理科のテスト得点の相関係数
標本相関係数rの実現値

例)ある具体的な中学3年生1000人の標本から実際に計算された数学と理科のテスト得点の相関係数

不偏性

  • 統計量の偏り(バイアス):標本統計量(推定値)の期待値と母数の差
  • 不偏性:偏りが0であること
  • 不偏推定量:推定量の期待値が母数に一致するような不偏性を持つ推定量のこと

標本平均については、母集団分布が何であっても以下の2つが成り立つ

  1. 期待値が母平均に一致する(不偏性がある)
  2. 標準誤差{ \frac{ \sigma}{\sqrt{n}} }で表される

不偏分散

標本分散{s^{2} }は不偏性をもたない。母分散を推定するときに、「偏りがある」ので不偏推定量ではない。

定量 不偏性 用途
標本分散 なし { s^{2} = \frac{1}{n} \sum_{i=1}^{n} ( x_i - \bar{X} )^{2}  } ※1
不偏分散 あり { \hat{\sigma}^{2} = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{X} )^{2} } ※2

※1: 記述統計の文脈(すべてのデータが手元にあって、その中でデータのばらつきを見たいとき)

例)中学生100人分の小遣いのデータがある。このデータにおける小遣いのばらつきを求めたい。つまり、この100人だけに関心がある場合。

※2: 推測統計の文脈(一部の標本から母集団の分布を推定することが目的となるとき)

例)全国の中学生(母集団)の小遣いの分布を知りたい。無作為抽出により、n=100の標本を得た。この標本から母集団における分散を推定したい