データ分析を業務にしていると、下記のようなことがよくあると思う。
「SQLのタイピング時間が、他人との会話時間よりも長い」
「パラメータを少しづつ変えてランダムフォレストを実行してたら2015年の夏は終わった」
「facebookで他人のリア充な投稿を見るたびに、投稿内容を元にfacebookに興味関心・行動履歴を抜かれてろ、と思ってしまう」

上記は、実はある人物の実態である。私だ。
そして、おそらくみなさんも同じようなものではないだろうか。

エンジニアリングと統計学とマーケティングの融合分野をデータサイエンス、そして、
その業務担当者をデータサイエンティスト、と呼んで久しい。
※Google Trendでは2011年頃から急激な検索数上昇が確認される。
※データサイエンティストの定義は、データサイエンティスト協会の定義、スキルチェックリストも参照されたい。

いまや、データサイエンティスト、という語は、あまりに乱用され、
データサイエンティストを称することはいささか恥じらいがあるのが現場の実感と思う。(私がデータサイエンティストの素養があるかはともかく、そう呼ばれるのは嫌だ)
しかし、データサイエンティスト、としての職能は、廃れることなく、むしろ需要はますます増しているように思う。
ただ、データサイエンティストとして、「統計学」「マーケティング」「プログラミング」スキルを向上させることに加え(これらは最低限必要だが)、
その前に、”サイエンティスト”として、どのようにあるべきか、に気をつけたい。

ここで、立花隆さんがノーベル賞受賞者・利根川進さんに対して行ったロングインタビューで構成される
『精神と物質』を推薦したい。



この本を推薦する理由は大きく2つある。
(1) ノーベル賞選考委員の一人が「100年に1度の大研究」と称した、利根川さんの研究結果自体がとても興味深い。
(2) サイエンティストとしての利根川さんの心構えが、サイエンス、データ分析全般を扱うもの全般にとって多いに刺激になる。


以下、特に上記(2)の観点から、備忘録がてら、いくつか抜粋する。
※下記は、見出しは私の方で適当につけたもので、引用した順番は適宜意図的に並び替えてある。
※(1)の観点でも非常に面白いので、興味を持たれた方はぜひ。

| 何を研究(分析)するべきか

“「オリジナリティのあるすぐれた仕事が出たあとは、そのバリエーションの研究がどっとつづく。
ぼくもそういうバリエーションの研究から出発したんですが、そこでとどまってちゃ凡庸な科学者で終わってしまうんですね。
(中略)ディテールの追求にすぎない。(中略)
ジャコブ、モノーでは説明できないような遺伝子の制御機構を何とかして見つけてやりたいといつも頭の中で考えていた。」”
(P.49)

“「どこでどういう研究がどこまで進んでいるか。
新しい理論的あるいは技術的ブレイクスルーが何かあったか。
そういった情報を常につかんでおくことが研究者には絶対に必要なんです。(中略)
そのフィールドの研究全体の進展具合を的確に把握していれば、
何がいま重要な問題で、何は重要でないかが自ずからわかってくる。」”
(P.113)

“「大切なのは、オリジナルでかつ重要度が高いことをやることです。(中略)
どういう研究をすればより一般性がある法則の発見につながるかという判断が重要になるわけです」”
(P.117)

“「ダルベッコが後にぼくのことをほめていうには、トネガワはそのときアベイラブル(利用可能)なテクノロジーの
ぎりぎり最先端のところで生物学的に残っている重要問題のうち、何が解けそうかを見つけ出すのがうまいというんだね、
(中略)みんなこれはテクノロジーがなくてできないと思っていることの中にも
そのときアベイラブルなテクノロジーをぎりぎりまでうまく利用すれば、なんとかできちゃうという微妙な境界領域があるんですね。」”
(P.267)


上記インタビューから、以下のことが見えてくる。
「バリエーションの研究ではなく本質的でより一般性がある研究(分析)をするべき」
「そのときの最先端のテクノロジーでぎりぎりできることを解決する」

ウェブログ・デジタルマーケティングの分析、特にアクションが求められるような
日々の現場(LPO施策、運用型広告のPDCAなど)では、細部の数字・分析に目が行きやすい。
しかし、その裏側にある、人間(ユーザ)の本質を捉えるようなことから、新しい大きな施策が生まれてくる。
とはいえ、実際、アクショナブルな施策は常に要求されるだろうから
「この小さなナレッジの集積(施策Aよりも施策Bのほうが成果が良かった)は、より大きな概念で捉えることができないか」と意識することが重要ということだろう。
分析、施策の提案の際に、視座が狭くなっていないかを意識しておきたい。
また、できれば現場・運用以外の業務として中長期で取り組めるプロジェクトがあるとなお良い。
そして言うまでもなく、最先端のテクノロジーに精通していることは必須となる。
最先端の情報源・環境を具体的に常に確保しておくことが、テクノロジーに対する審美眼を磨くために必要だろう。



| 仮説は必要か

“「こうなってるんじゃないかなと考えて、本当にそうなっているかどうかを調べる。
その最初の仮説のたて方で間違う可能性がある。これがいちばん大きい。
次に、検証の方法で間違うことがある。こちらは失敗してもやり直しがきくけど、
はじめの仮説で間違ったら、もうどうしようもない。
はじめにこうなってるんじゃないかなと考えたときに間違った方向で考えていたら、
あとはどんな実験をやっても無意味ですよ。いくらやっても意味あるデータがでてこない。
だけど、はじめに間違った方向に頭がこりかたまっていると、
それでも、これは仮説のたて方が誤っていたんだということに気がつかないで、実験の方法が悪かったんだと思いこんで、
方法だけ変えて別の実験をしたりする」”
(P.96)

“「それがどんな思いがけない結果でも、あ、これは自分の考えが間違っていたんだということで、
それを丸ごと捨ててかえりみない人が多いですね。これもダメですね。
できる人は、それが自分の考えていたことに反することでも、思いがけない結果が出たら、
すぐそれに、『ええっ』と思って注目する。そして、それじゃこれはこうなってるんじゃないか、
いやこうなってるんじゃないかと、あれこれ一生懸命アナリシス(分析)する。」”
(P.191)

“「サイエンティストにとっては、自分が予想した通りの常識的な結果が出るより、
自分が予想しなかった、思いがけない常識破りの結果が出るほうがはるかに面白いわけです。
常識に合わなければ合わないほどサイエンティフィックには大きな発見になる可能性を秘めているわけですからね」”
(P.240)


よくビッグデータを用いた分析に関する議論として、
「仮説をビッグデータで立証すべきか」「(人間では)仮説すら立てられないような意外なことこそビッグデータから導き出すべきか」ということがある。
これは、仮説のスコープが異なる議論が混在していると思われる。
上記どちらにしても、最低限「Yという結果には因子Xのいずれかが作用しているはずだ」という仮説は必要になる。でないとそもそもデータをインプットできないからだ。
ただし、「因子Xがどのような構造をもって、Yという結果になるか」は、仮説は不要なこともあり得、そもそも人間には理解不能なことである可能性もあると思われる。

ビッグデータに対する(現時点では過度の)期待から、上記のような論点がでてくると思われるが、
いずれにしても、「仮説を立てて、検証・考察」することは重要である。
なぜなら仮説がないと、その結果が、意外な結果なのか、本質的な結果なのか、
あるいはたまたまその事象であてはまる偶然の構造なのか、の判断がつかないからである。
もちろん最初は仮説がない状態からはじめ、最近主流である、”データ探索”(データ把握のための簡単なプレ分析)から仮説を導き出す、
という試行錯誤も多いにあり得るだろう。
そして、利根川さんの言葉を借りれば、その結果が自分の仮説と間違っていた時に、
元の仮説に固執してもいけないし、丸々捨ててもいけない。
そこから新たな仮説を見つけ出すべく一生懸命分析する、ということが重要とのことだ。


| 日々テクニックは磨き続ける

“「(※注釈:利根川さんの当初の論文に対して)一応の水準には達していたわけだけど、バイオロジカルに本質的な発見がどれだけあったかといえば、
大したことがないわけ。(中略)ただ、こういうことはいえるね。
あの論文の実験は、テクニカルにはきれいにやってあった。」”
(P.127)

“「サイエンスというのは、ここがわからない、ここが不思議だというところを、まず問題として定式化するところからはじまるんですね。
(中略)問題をはっきりクエスチョンの形に定式化する。これが第一歩ですよね。サイエンティストとして次に重要なのはその次の段階なんです。
ある問題があるとき、その問題に具体的に答えを出すためには、どういう実験をすればよいかというアイデアが出るかどうかなんです。」”
(P.205)


よく、疑問を持つことの重要性は説かれることが多い。
しかし、利根川さん曰く、重要なのはその先の「その問題に具体的に答えを出すための実験アイデア」が重要だということだ。
そのためには、これまでも述べたとおり、最先端のテクノロジーに精通するとともに、
自分自身のテクニックも常に磨き続ける必要がある。
どのように検証するか、という基礎知識および、
どのように分析するか、という統計力・エンジニアリングどちらも重要である。



| 自分で確信できるか、そのためにどれだけ集中したか

“「サイエンスでは、自分がコンヴィンス(確信)するということが一番大切なんです。
自分がコンヴィンスしていることなら、いつかみんなをコンヴィンスさせられます。
まず自分をコンヴィンスさせるというのが一番大変なんであって、人をコンヴィンスさせるなんて、
そう大したことじゃない。
ただ、人によってはね、簡単に何でもコンヴィンスしちゃう人がいるけど、あれはダメよ。
そういう人は、間違ったことをすぐ正しいと思いこんでしまうからね。
自分自身に何度も何度も、本当にそうなんだろうか、絶対間違っていないんだろうか、と問い直して、
いやこれで絶対に間違いないと、時間をかけて、徹底的に問い詰めた上でのコンヴィンスね、
これがでればいいわけです」”
(P.177)

“「大切なのは、インテンス(熱心)にものを見る、インテンスにものを考えるということね。
(中略)なんでこれが失敗したんだろうと、考えて考え抜く。観察と考察にかける集中力ね、これが大事なんです」”
(P.192)

“「我々の実験結果と彼らの実験結果に大差はなかった。しかしその解釈に大きな違いがあったということです。」”(P.174)


将棋の羽生さん、あるいはスポーツ選手も述べていることであるが、
集中には訓練が必要である。
そしてそれぞれ工夫した、自分を集中プロセスに持っていく手順があるようだ。(最近話題になったラグビー五郎丸選手の所作しかり)
集中のための具体的イメージも重要と述べる人もいる。
例えば、潜水するイメージ(集中具合に応じて深く潜る)、登山するイメージ(集中具合に応じて山を登る)、などである。
いずれにしても、自分がデータから何かを考察するときには、それに適した環境・状況、および自分自身の状態が必要となる。
近年、スマートフォン、SNS、の進展により集中力を削ぐ要素は非常に多い。
いつでもどこでも、通知や電話などにインターラプトされかねない。
しかし考察という工程において集中の大切さを考えると、いかにオフラインを確保するか、が重要になる。


以上、特に自分の業務にも非常に示唆があるところをいくつか抜粋した。
そのため、本来の書籍の意図とは若干ずれている(あるいは言及を小さくしてしまった)ところもあるかもしれない。
それは、GW真っ只中のこどもの日に、SQLを回しがてら、ニュースアプリをチラ見しつつ、ブログを更新しているということで容赦いただきたい。
そう、私は今、集中できていない。