病みつきエンジニアブログ

機械学習、Python、Scala、JavaScript、などなど

「統計学が最強の学問である」をおすすめしてみる

※本記事はCA14 Advent Calendar 2013の12/24の記事になります。メリークリスマス!

本当はハッカーと画家とかリーダブルコードとかエルフェンリートとかBLACK LAGOONが普通におすすめなんですが、せっかくのCA14アドベントカレンダーなので、CAの同期に向けて統計学が最強の学問であるをおすすめしたいと思います。

本書の概要

本書では最新の事例と研究結果をもとに、基礎知識を押さえたうえで統計学の主要6分野
◎社会調査法
◎疫学・生物統計学
◎心理統計学
データマイニング
テキストマイニング
◎計量経済学
を横断的に解説するという、今までにない切り口で統計学の世界を案内する。

ということなんですが、そんなにすごい本じゃないです。それよりは、統計学をざっと眺めるための読み物という感じです。

統計学の歴史から、なぜ統計学が大事なのか、統計学で何ができるのか、統計学にはどんな手法があるのか、そういったあたりのことをざーーーーーーっと紹介してくれます。

統計学の面白いところ

統計学の面白いところというのは、「思い込み」を可視化して、嘘か本当かを炙りだしてくれるところだと思います。

例えば、次の命題について考えてみてください。

子供がテストでとても悪い成績を取ったので、罰を与えた。その次のテストで、子供は良い点数を取った。罰は有効だと言えるか。

私達は「罰を与えたから成績が良くなった」と思い込んでしまうと思います。しかし、罰を与えなかったときを想定してみます。

子供がテストで(たまたま)とても悪い成績を取った。その次のテストで、子供は(いつも通り)良い点数を取った。

ということで、「たまたま悪い点を取ったけど、次はいつも通りの点数だった」というのは、極めて自然だと思います。このような思い込みはフランシス・ゴルトンのもたらした「平均への回帰」という考え方で説明することができます。

f:id:yamitzky:20131226040957j:plain

↑この人!

まとめると、、、
テストの点数は(その子供の)平均へ回帰するとかんがえると、罰が有効かどうかはわからないとなります。

この話は、本書には「身長が高い男が、自分より身長の低い女とだけ結婚したら・・・?」という例で書かれています。笑

統計学ウェブサービスを運営するのにも大事?

私達エンジニアやウェブサービスを運営する人にとっても統計学は大事かなーと思います。

ウェブサービスを運営していて頻繁に起こるのは、次のような「思い込み」です。

あるUIを変更するアップデートをしたら、次の日の平均滞在時間が10秒伸びた。このUI変更は意味があったか。

答えを先にいうと、効果があったかはわからない、です。何故かと言うと、例えば2人しか使ってないアプリだったら、たまたま10秒間だけ使う時間が伸びただけかもしれないからです。でも、もし100万人の平均を取って10秒伸びたのであれば、それは効果があったと言えるでしょう(曜日による差などもあるので、実際にはよくわからないですが)。このような違いは、(有意差)検定という考え方を使って「本当に効果があったのか? たまたまじゃないか?」といったことを調べることができます。

「『効果があったかどうかわからない』かわかっても意味がない」と思うかもしれません。しかし、「効果がないものに一喜一憂しても意味がない」のです。ということで、効果が明白な施策をちゃと打ちましょーということができるような気がします(でも、効果が明白な施策ってそんなに多くないので、地道に改善を積み重ねるしかない、と言う・・・笑)。

まとめ

なんだかだいぶつまらない例を上げてしまったような気もするのですが・・・!

統計トリビアを知りながら統計リテラシーが上がるような気がする本書はおすすめです、という話でした! メリークリスマス!

統計学が最強の学問である

統計学が最強の学問である

追記

尾崎さんが「平均への回帰」「見せかけの回帰」などを、DAUなどをテーマに書いていらっしゃいます。「見せかけの回帰」は本書に載っていないような気もしますから、ぜひこちらも合わせて御覧ください。

「毎日の数字を追いかけ、毎日改善する」ことの意外な落とし穴 - 銀座で働くデータサイエンティストのブログ