この記事は技術的な解説は出てきません。
僕自身の経験から、統計について「どうやって勉強するのか」ということを、自戒を込めて書こうと思います。機械学習も理論面では基本的に同じです。
では張り切って、どうぞ!
筆者のレベル感
偉そうに「統計」「トウケイ」と言っていますが、僕はアカデミック出身ではないので、レベル感としては”足の親指の水虫レベル”です。
統計を勉強し始めたのはちょうど一年程前で、その時は勉強というより、考え方として「相関と因果の違いについて」みたいな大衆本を読んでいました。
数式が乗っている教科書的な本を読み始めたのは、そんなこんなでまだまだ最近なので、浅学者です。
偉そうにしてすみません。。!
それを踏まえて今のレベル感としてはこんな感じです。
・実務
単純集計:結構得意。昔から角度を変えて見ることは好きだったのでピポット大好きマン。
モデリング:lm、glm、glmmなどはOK。階層モデルらへんをどうにかこうにか。
時系列はまだまだ。状態空間を早くマスターしたいレベル。
・理論
ベイズvs頻度みたいな哲学的なことは好きだが、ぶっちゃけ証明なんかはできない。
モーメント母関数なんか大嫌い。実務で使わなければいらないよね?というヘタレ。
という感じですが、結構実務では役立つことが多いです。
なので個人的な考えとして、プログラミングと同じで極める必要はないと思っています。
とにかく今の実務が1mmでもいい方向に進めば儲けもの!という考えです。
おすすめの勉強方法
上を見て、まあまだ時系列を状態空間で表現できないレベルなの?と思われたかもしれませんが・・・笑 まあ今時点ではそんなレベルです。
その上で、”営業として統計を使うなら”という視点で考えてみると、個人的に以下の意見を持っています。
・数式・理論を理解せずに、統計的手法を使うのは危険!
一方で、
・細かい理論面を意識しすぎると、全く勉強が進まないから飛ばせ!
「どっちやねーん!」という声が聞こえてきますが、この中間を、仕事に合わせて調整すればいいと思っています。
考えの背景として、まず、線形回帰をEXCELでサクッと、とりあえず棒線を引っ張ったり、とりあえず仮説検定をやって、p値が有意だから”ユウイ”としたり、こういった理解せず「トウケイ」をぶん回す使い方は意味がないと思っています。
これはデータアナリストと名乗っている人にも時々いるっぽいですが、とくにリサーチ会社の営業さんや、コンサル、分析系を生業として名乗っている人にも意外に多いように思います。
一方、統計的手法を証明までマスターしたからといって、実務には全く使いません。
また理論武装をすると、あたかもその手法が完璧という考え方に偏りますが、統計手法って前提仮設が多いので、理解すればするほど、現実に当てはめるためには色々理論面で妥協しないといけなかったりします。
ここで言いたいのは、いかに勉強時間を短く、自分の職場で最短で使える武器にするか、その上で使い方を間違えないようにするかを意識して勉強しよう!ということです。
前置きが長くなりましたが、おすすめの勉強方法は以下です。結構当たり前のことを言っていますが、意外に難しいです。
- 理論より用語をまず頭に入れて、情報ソースを行き来する
- 理論理解のフェーズで、聞ける人をそばに置く
- 自分ごと化できるデータでモデリングなりをしてみる
下で解説していきます。
1.理論より用語をまず頭に入れて、情報ソースを行き来する
この中で一番大切だと思うのは1です。
まず統計にしろ機械学習にしろ、専門用語が多く、それぞれ理論的側面が関わってくるので、本を読んで、いちから順に理論を理解し、用語を記憶していくというのは難しいです。
統計の用語や理論は、見方を変えるだけでいきなり理解できる瞬間があるので、理解してから次の学習に進む、という方法を取っていてはおそらく独学だと一年やっても基礎の基ぐらいまでしか終わらないでしょう。そのため実務で使うなんて夢のまた夢で諦めてしまいます。
そこでオススメなのは、わからなくても速攻で一度教科書を読みきってしまい、なんとなく「〇〇」という用語があるっぽいな。というのを繰り返すことです。
またここで大事なのは同じ本を薄く早く読み返すのはありなのですが、違う本、記事をとにかくいろいろ読むということです。
基本的に教科書のような本の方が、書き方や理論補足は丁寧ですが、言葉遣いが固く、実例なども現実離れしているのであまり理解できません。しかし用語が記憶に残っていれば、その固め理論が、ざっくり書かれたWEB記事の説明と繋がり、理解が早まります。
人間の記憶はイメージなので、難しい理論もイメージになって初めて理解できます。段階を踏む意味でも、まずはざっくり用語を頭に入れておいて、いろいろな情報ソースを行き来する中で文字情報からイメージにおとすことがオススメです。
そうこうしているうちに全体感がつかめてきて、脳の中で構造的に整理できるようになってくるはずです。プログラミングと似ていると思います。
オススメの書籍はこちらも参考にしてみてください。
【初学者向け】おすすめ書籍 統計学(2018.5)
2.理論理解のフェーズで、聞ける人をそばに置く
次のステップは、「なんとなく統計知っているよ」状態になったけど、教科書の事例をそのまま適用する以外できないフェーズに差し掛かると思います。
つまり理論面でしっかりとした理解ができておらず、”何がわかって何がわからないか”分からない状態。この状態で実務で使ってしまうと、上で書いたような、なんでもかんでも直線引いちゃえ!なんでもかんでもt検定!状態になります。
しかし、ここから独学だけで理論を理解することは結構難しいと考えています。それは頭の善し悪しというより、モチベーションの問題で、実務では「この理論正しいの?」なんて聞かれないからです(もちろん統計をどの程度実務に入れているかによりますが、今まで必要なかったのであれば職場の統計レベルもこのレベルだと思います)。でも自分の中では常に「これ正しいのか?」と不安なはず。
そこで、このフェーズでオススメなのは、理論を理解している人をそばに置いて聞くことです。聞くことで自分が何について理解していないのか分かりますし、聞くために少なからず数式と格闘しようという気になると思います。
恵まれた環境の人は会社や大学の友人に”先輩”がいるかもしれません。その時は定期的に勉強会をやって!と飲み代ぐらい奢りながらお願いしてみてください。
そんな友人いねー!という人。僕と同じです。
そんな環境の人はどうするか。『金を払って環境を作る』です。もうここはアナログですが個人的にはネット記事で探すより何倍も効果が高いと思っています。
統計の理論面の理解は、ニュアンスで理解が進む場合が多いので、文字情報のみより音声情報と組み合わせた方が相性がいいと思っています。その為「まじでお金ない!」って人は動画コンテンツを見るのもいいと思います。
一番のオススメはこういった数学塾です。
ただ、1時間聞くだけでも数千〜数万円という金額感です。
確かに、世の中に統計の理論面を教えてくれる人などは、数学科出身の人か、実務で使っている人なので、まあ少ないでしょうから、お友達などで聞ける環境がある人は有効的に使いましょう。
3.自分ごと化できるデータでモデリングなりをしてみる
最後に実際に何かやってみましょう、というフェーズですが、手元にデータはありますか?という話になると思います。
今の世の中すごいもので、データを公開しているサイトはいっぱいあります。
営業としても、こういった、サイトから情報を取得し自分で分析できたらとても強いですよね。この記事の下でもいくつか紹介しておきます。
ただ、仕事でもない限り、いちいちデータを取ってきて何か分析するなんてめんどくせー!というモチベーションの問題がここでも発生します。
この気持ちは理解されるかわかりませんが、取ってきたデータというのは以下の2つの理由でモチベーションが下がりやすいと思っています。
・何を分析するのか決まっていないので、自分自身で目的設定が必要。
・知らないデータなので、データを見てもイメージしにくい。
例えばカグルのチュートリアルで有名なタイタニック号のデータや、RでのIris(花)のデータって、ぶっちゃけ興味ありますか?僕はそこにあまり興味が湧きませんでした。
その為、自分自身に関わりのあるデータがいいと思っています。
もちろん実務を重ねると、全然関係ないデータを見る必要があると思いますが、ここでは”一番最初に”という意味で上のような実感値のあるデータを使うことをおすすめします。
で、こんなやり方どう?という提案ですが、まず1つ目は自分の会社のデータでやってみるということ。営業だと売上データや顧客データ、広告データなど以外にたくさんあります。
もう一つは、自分の生活データを作ってみるということです。
例えば私は日々こういったデータを取っています。
日によって、全然頭が働かないとか、なんとなく落ち込む、みたいな気分の乱れが好きではないので、この横に色々と要因あり/なしを記録していて、例えばアルコール飲んだ飲まないや、睡眠時間を記録しています。最近はウェアラブルデバイスがあるので、私はそこからもデータを合わせて取っています。
ここから、例えば「月末はやる気ねーなー」とか、「向上心とネガティブは逆相関だけど、時々どっちも増えているな」とか、いろいろ発見があると思います。
まあ、データ自体は自分ごと化できるデータであればいいと思いますので、是非、上の2つのフェーズの後には、知識だけではなく手を動かすようにしてみてください。
最後にデータを取得できるサイトはこの記事を見てください。
提案に役立つ!オープンデータを取得できるサイトをまとめてみた
まとめ
長くなりましたが、実際に勉強をし始めると、思いがけないところで立ち止まってしまいます。Rやpythonで実際に動かせるようになるには、これとは別に勉強と慣れが必要ですが、まずは理論面を理解していれば、社内の分析チームや社外のリサーチ会社ともうまく話せるようになると思います。
私自身が浅学者なので、自戒を込めて勉強していきますが、初学者の方の少しでもお役に立てれば嬉しいです。
コメントを残す