データ分析に必須の知識・考え方 統計学入門 仮説検定から統計モデリングまで重要トピックを完全網羅

本日読了。

良書。統計学の全体概要がわかる。

  • 統計は、データを整理して要約する記述統計と、データから発生元の対象を推測する推測統計があり、後者は統計的推定と仮説検定にわけられる。
  • 大数の法則。サンプルサイズが大きいと、標本平均は母集団平均μに近づく。中心極限定理。サンプルサイズが大きいと、標本平均はμを平均とし標準偏差σ/√nの正規分布に近づく。
  • 標本をもとに母集団の性質を推定する量を、不偏推定量と呼ぶ。不変標準偏差sはn-1で割る。理由として、(x-E(x))^2は(x-μ)^2より小さめの値になるから、nではなくn-1で割ることで補正する。標本誤差はs/√nとなる。サンプルサイズが小さい時、標本誤差はt分布に従う。
  • 仮説検定は、帰無仮説と対立仮説を立て、帰無仮説が正しいと仮定したときに観察した値以上に極端な値が出る確率であるp値が、有意水準αに対してp<αであるとき、帰無仮説を棄却する、という手順で行う。正規分布の2群間の比較する検定を二標本t検定、正規分布の代表値を検定することを一標本t検定と呼ぶ。
  • 統計的に有意である程度を表すマークとして、*: p < 0.05、**: p <0.01、***: p < 0.001を使う。
  • 母集団が数学的に扱える分布の場合をパラメトリック検定、そうではない場合をノンパラメトリック検定と呼ぶ。分散分析ではF分布を使う。二値のカテゴリカル変数は二項検定、多値ではカイ二乗検定を使う。ノンパラメトリック検定では、順位を使うウィルコクソンの順位和検定などを使う。
  • 正規分布ではない変数同士だと、線形回帰や相関係数は使いにくい。その際は一般化線形モデルとして最尤法を使う。正規分布でも使えるが、二項分布、ポアソン分布、負の二項分布、ガンマ分布などに拡張可能である。
  • どの統計モデルに当てはまりがよいかを、尤度比検定や、AIC赤池情報量基準)、BICベイズ情報量基準)などで判断する。
  • p-hacking。結果を見てp≧αならサンプルサイズnを増やしていく、とすると、どこかでp<αになる確率は結構高い。多数の類似の検定をすれば、どれかでp<αになる確率は結構高い。
  • ベイス統計。頻度主義(平均や分散などの統計モデルのパラメータθは、真の値が存在し固定である)に対して、θについての不確実性を確率分布としてとらえる統計の考え方。最尤法は尤度を最も大きくするθを点でとらえるもの。ベイズ統計はθを確率変数として扱う。事後分布 ∝ 尤度 × 事前分布。
  • MCMC法はベイズ統計の事後分布の計算方法の1つ。初期分布を一様分布や正規分布と仮定しつつ、モンテカルロ法で乱数計算して、結果を求める。