機械の中の学習日誌

社畜によるIT技術メモです。今日も元気です。

心理統計 まとめ -2-

前回 syunkan81.hatenablog.com

2章まとめ

尺度水準

  • 尺度:何かを測定するときに必要な「ものさし」
  • 尺度水準:尺度の性能のランク。
尺度水準 可能な計算 必要な条件 扱える変数 補足
比率尺度 ×, ÷, +, - 絶対的原点 量的変数 身長・体重 *1
間隔尺度 +, - 等間隔性 量的変数 西暦年、温度 *2
順序尺度 大小関係の比較 順序性 量的変数 成績の順位
名義尺度   質的変数 血液型

*1: 0は何もないことを表す。測定された値同士の関係を何倍かという形で表現できる

*2: 0であっても何もないことは意味しない

尺度水準と変数変換

変数変換は、尺度水準ごとに必要な条件を満たす範囲、尺度の性質を損なわずにできる変換を行う必要がある。

尺度水準 必要な条件 定数倍 線形変換 単調変換 1対1変換 補足
比率尺度 絶対的原点 × × × *3
間隔尺度 等間隔性 × ×
順序尺度 順序性 ×
名義尺度
  • 定数倍:変数にある数を含む。
  • 線形変換:y=ax+b
  • 単調変換: 順序性を保ちながら他の値に変換する。
  • 1対1変換:他の何かに置き換える変換。

定数倍 ⊂ 間隔尺度 ⊂ 順序尺度 ⊂ 名義尺度

代表値

平均、中央値、最頻値。

代表値の指標とその特徴

長所 短所
平均 データをすべて用いるため、データの持つ情報を有効に使っている。 外れ値の影響を受けやすい
中央値 外れ値の影響を受けにくい 単に真ん中の値であるという事以上の意味はなく、中央値よりも大きなものと小さなものがどのような値、分布でも、それらの点は中央値に反映されない。
最頻値 外れ値の影響を受けにくい 最頻値が分布の端に位置した場合、データを適切に代表するとはいいがたい。

散布度

どれだけちらばっているかに関する指標。

偏差、平均偏差、標準偏差、範囲

  • 偏差:個々のデータの値が平均からどれだけずれているか。

    偏差 = データの値-平均

  • 平均偏差:偏差の絶対値の平均。平均をデータの代表値と考えた時にどれくらいになるかを示したもの

  • 分散:偏差を2乗してそれらの平均を散布度の指標としたもの。平均をデータの代表値と考えた時に平均からの偏差の2乗がデータ全体でどれくらいになるかを示したもの。

  • 標準偏差:分散のルートをとって単位を元に戻す。

    {標準偏差=\sqrt{分散}}

  • 範囲:データの最大値と最小値の差として定義

標準化

  • 標準化 データの値から平均を引いて標準偏差で割る作業

    {標準得点 = (データの値- 平均) ÷標準偏差}

    標準偏差何個分、平均から離れているかが分かる。

  • z得点

    平均0、標準偏差1になるように標準化した標準得点

  • 偏差値

    平均50、標準偏差10になるように標準化した標準得点

    {偏差値=z得点x10+50}