統計思考の世界 ~曼荼羅で読み解くデータ解析の基礎

先日読了。 

良書。「統計曼陀羅」で統計学の全体的地図を示し、統計学の思考のありかた(思想)を解説する。機械学習については言及されていないが、機械学習の思想にもつながる。

統計は「見る」ことからはじまる。「とにかくそのまま適当な統計ツールに"食わせて"その出力を"排泄"させてみることは、今のコンピューター・ソフトウェアの快適な湯ユーザー・インターフェイスをもってすれば、けっしてできない話ではありません。しかし、それは私が本書をもって全力で阻止したい"愚行"です。」→まさにその通り。機械学習でもよいモデルをすぐに求める人が多いが、実データの分析にはデータを見ること・見たデータをもとに特徴量をエンジニアリングすることがとても重要である。

可視化の道具として、箱ひげ図を紹介。

正規分布が統治するパラメトリック統計学帰無仮説と対立仮説。

一般線形モデル。非線形に見える多項式回帰分析は、線形モデルに帰着できる。誤差が正規分布に従う前提。誤差が正規分布以外にも拡張したものは一般化線形モデル。

尤度。ある仮説のもとで観察データが生じる確率の積。モデルとデータの当てはまりのよさ。データをもとに尤度最大になるようにパラメータ推定するのが最小二乗法。複雑なモデルの方が尤度は高くすることができる。複雑さのバランスを示したのがAIC赤池情報量基準)→機械学習における正則項と同義。

母集団からのサンプリングが現実的にはできない場合、データからのリサンプリングを行う。リサンプリング手法。ブーツストラップ(重複ありで同数を無作為に抽出)とジャックナイフ(標本データから無作為に削除)。

ベイズの定理。事後確率分布=尤度×事前確率分布。

多変量解析における主成分分析。→機械学習における固有値分析・次元削減に相当。