【初学者向け】おすすめ書籍 統計学(2018.5)

このエントリでは初学者向けの統計学の本を紹介する。

私自身が浅学ではあるが目線が同じ方向を向いてる分いきなりレベルが飛ぶことはないし、また古くからアカデミックで勉強してきたわけではないので、”苦労して読み込んだ本バイアス”はないものと自負している。また書籍も最新のものと古くから有名なものを比較して読んでいたので、これから勉強したいという人には少なからず参考になるかと思う。

ちなみにこの選定をするにあたってざっくり数えてみたら、統計関連で だいたい50冊ほど読んでいた。読み物系が4割、教科書的な参考書4割、手を動かしてみる系2割といった感じだ。

それを踏まえて今回は初学者向けに読み物系と教科書・参考書を紹介する。手を動かしてみる系はRやPythonといったもうワンステップ上のように思うのでここでは紹介しない。

読み物系

勉強する前に、またやる気がなくなった時に読むと面白いものを紹介する。これを読んだからと行って統計や分析の力が着くわけではないが、考え方が変わるときっかけになると思う。



かなり有名どころだけど、マーケティングについて”本物感”を感じられる一冊。広告を扱っている人間としてクライアントがこのように考えていると思うとやる気が出てくるし、逆にクライアントがこのように考えているのであれば、少なからず理解が必要だと思う。出てくる数式などは最初わからないが、勉強しているうちに何を言っているのかが分かると成長を感じられる。


これは比較的新しい本だが、根強い人気のようで出版されてからずいぶん長い間書店の目立つところにあるように思う。売上データのような今までの目的に加え、センサデータから人の感情や運といったものまで分析しようとする近未来的を感じられる一冊。最新技術でどんなことができるのかに加え、安っぽいニュース記事では見られないその分析のロジックまで書かれていて納得感があり面白い。


この本は読み物として紹介したい。というのも、内容としては身近なデータに対しどんなことができるかという観点で書かれた本で『分析をするとは』を”ものすごくイメージしやすく書いた本”としてかなり有用だと思うが、細かい整合性についてはざっくりだな!という感じのホンだから。書店を探せば分かるけど、こういった考え方からやり方まで初学者に分かるように書かれた本は本当に少ない。なぜかって初学者に分かるように考え方から実際に手を動かすまでを現実的なデータでやろうとすると一冊で説明できるわけがないから。

この本はそんなかゆいところを、できるだけいろんなことを端折って書いてくれた本。だから実用的に真似だけするのは危険だけど、読み物として最初に読むにはおすすめ。特に『解析単位をきめろ』、『ビジネスインパクト・打ち手の考え方』こういった解析手法以前の内容はあまり他の書籍にないように思う。



これはざっくりと平均だけの判断は危険だよねって話だったり、こんなに現代人が”平均は〜”と言っている平均思考の歴史的背景を紹介してくれたりと目からうろこの本。そんな文脈で心理学的な側面の話もあったりと非常に面白く読めた。(最近読み返してないのであまり内容思い出せない笑)コックピットの設計の為、パイロットの体の数十箇所を計測しそれぞれの平均を測った。これで”平均的なパイロット”の体格が分かるだろうが、多少は足が長かったりする人もいるだろう。ではその”平均的なパイロット”の誤差30%(ちょっと太っていて足のサイズが小さかったり、痩せていて手が長かったり)の中にはどのくらいの割合が当てはまるだろう?ここからは是非本を読んで欲しい。平均について考えさせられる。

教科書的・参考書

実際に統計を使おうと思うと理論面での理解が必要だ。入門書的なものは結構いろいろ読んだが、やはり有名所のど定番は安定感がすごい。


この2冊は定番中の定番。とりあえずこれを読まないと始まらない感じ。

データ分析の先輩方のブログなどでは赤本、青本なんかと略されたりする。自然科学の方は少しむずかしいので、わからないところは飛ばしながら後々振り返るという勉強法がいいと思う。

営業が独学で統計・機械学習を勉強する方法 3つのフェーズ



これも定番中の定番。得られたデータに対し、他の変数で説明する為のモデルづくりをモデリングというが(定義は他の記事などを参考にしてください)、その考え方が書かれた本。モデリングに関しては聖書のような存在で、分厚そうに見えて中身は以外に初学者に優しい書き方をしてくれている。この本を理解するかいなかで統計っておもろい/おもろくないが分かれるのはないかと思っている。個人的にglmの考え方が理解できて、上の本で書いてあるいろんな知識がまとまったように感じた。


この2冊は統計のまとめとして頭を整理したり逆引き的に読み返すのにおすすめ。最近の本は質的・量的変数の説明が冒頭にはあるが重回帰分析では質的・量的にかかわらず”ぶちこんじゃえ!”みたいな感じで強行突破しているように思う。でもそういう解釈の仕方だと、後々モデリングをして質的変数・量的変数の解釈の重要性を改めて痛感するときがあると思う。
その時にそもそも数量化1,2類の存在を知らなかったりして悲惨な状態を回避するために質的変数と量的変数をちゃんと区別して理解するべきで、多変量解析法入門はめちゃくちゃ簡易にまとめてくれている。「逆」引き 統計学 実践統計テストの方も検定を理解する上でまとまっていて便利。僕はこれでやっと検定の使い分けを理解しました。

おわりに

今回はおすすめの書籍を紹介したが書籍は本当に合う合わないがあると思っているし、一冊読み込むよりも数冊を回し読みするほうが理解が進むことは間違いないと思う。上で紹介した本をパラパラと見ながら書店で合う本を探してほしい。
また僕のように新品へのこだわりなどなく安く買いたい!という人には以下で書籍のおすすめの買い方を紹介しているので参考にしてみてください。
次回は手を動かす系やとしてRやpythonのものを紹介したい。

シェアする

  • このエントリーをはてなブックマークに追加

フォローする