collect, analyze, and visualize data
/ produced by Hiroyuki Shinoda
collect, analyze, and visualize data
Article
2015.3.15
データ解析に潜む”思考のトラップ”

毎年恒例の花粉症の季節です。
学生のときは受験、就活、
社会人になってからは期末の最後の追い込み、という2〜3月の時期に
目がかゆい、鼻水がとまらない、薬で眠くなる、というハンディキャップ状態に、
もし花粉症ではなかったら、自分はもっと高みに行けたのでは、
と思ってしまいます。

さて、今回はそんな勘違いに関するポストです。

データ分析において、もっとも気をつけるべきは、
先入観だったり、データの読み違いだったりしますが、
人はそもそもがさまざまな認知バイアス、ヒューリスティック(ショートカット)に
縛られて思考しているものです。

今回は『思考のトラップ』を読了した備忘録として、
データ分析時に気をつけたい思考のバイアスをいくつか列挙してみたいと思います。

「確証バイアス」
「人の意見は、何年間も自分の見かたをうらづける情報に注目し、あらかじめ持っていた考えに
反する情報を無視してきた結果である」
(P.53〜)
要するに自分の言いたい事があるときにそれを立証する証拠ばかり(無意識に)探して、
それを反証する事象が目につかなくなってしまうことです。
自分が最初に思いついた馴染みのある(納得しやすい)ストーリーに固執してしまいがち、とも言えます。
それを避けるためには、意図的に以下のようなことを心がけることが重要かと思います。
「自分の仮説を反証するためのストーリーも検証してみる(Pという事象はAが原因といえない)」
「自分の仮説以上に有力な説を検証してみる(Pという事象にAは影響あるが、Bはもっと影響がある)」

※KPIが決まっていれば、ランダムフォレストやロジスティック回帰のパラメータ推定で本事象は回避できるのでは、
 と思えそうですが、そもそものKPIのたて方が正しいか、を考えるときに
 そのKPIを裏付ける仮説が”確証バイアス”に陥ってないか気をつけることが重要なのかと思います。

「テキサスの名射手の誤謬」
「人は偶然の可能性を無視しがちである。
結果に意味があるように見えるとき、あるいはランダムな事象になにか原因があると
考えたいときはとくにそうだ」
(P.66〜)
たまたまなことが連続して(あるいは空間的に固まって)起こると、
そこに何らかの原因があると思い込んでしまうということであり、
“nが少ない”のに、あるいは、”nが多くて、ある特定ケースに限らずに言える事”なのに、
Aという事象とBという事象に共通項があると、それ以外の異なっている点以上に注目してしまい、
何か特別な意味があるのでは、と思ってしまうということです。

これはアソシエーション分析のような「信頼度」「支持度」だけではなく「リフト値」も考えるということを
(アソシエーション分析以外のシーンでも)気をつけておくことで、回避できるかもしれません。

※(参考)アソシエーション分析における「支持度」「信頼度」「リフト値」
支持度…データ件数全体で、そのアソシエーションルールが存在する割合
信頼度…条件XのもとでYが起こる割合
リフト値…単純にYが起こる事象と比較して、条件Xが加わる事で、どの程度そのルールが発生する確率が上昇するかの割合
アソシエーション分析

「代表性ヒューリスティック」
「人はすぐ結論に飛びつく。
頭の中にあるキャラクターのタイプに、その人がどれぐらい当てはまって見えるかがその証拠だ。」
(P.362)
これは無意識に、職業やデモグラに対して、自分の中でイメージができてしまっており、
調査やアクチュアルのデータ分析の際に、ターゲットの先入観が入ってしまうということです。
たとえば”医者”や”弁護士”という職業の人が多いクラスタに対して、”論理的に判断する”、”機能重視”ということを、
アンケートやアクチュアルの行動分析から読み取れる事以上に、
(前述の「確証バイアス」も伴って、無意識のうちに)付与してしまうことです。

特に、”自分の感覚”と、”世の中の実態”が乖離している場合に、余計にひどい分析になってしまうように思います。
※たとえば「シニアはスマホを使わない」、
「地方に在住している人より都心在住の人の方がITリテラシーが高い」などという先入観。
(部分的に上記が正しいとしても、実際にはその反証はいくつもあると思いますし、
“シニア”、や”都心”、というくくりをどこまでとするか自体、先入観と実態がずれてしまいがちです。)

世の中の実態を正しく捉えられるように情報をアップデートし続ける、ということが重要とも言えますし、
案件ごとに、常に過度な代表性ヒューリスティックに陥って、誤った結論に至ってないかチェック、ということが重要、
とも言えると思います。

いかがでしたでしょうか。
本書籍は、もちろんデータ分析に特化しているものではないため、
日常生活を送る上で気をつけたいことなどが上記以外に豊富な事例とともに紹介されております。
ページ数は多いですが、さくさく読めると思います。

最後に、本書籍での「ダンバー数」についての記述について。
「人がある時点で関係を維持し、連絡をとりつづけられる人の数は、せいぜい150人程度である。」(P.223〜)
え。普通はそんなに多いものなのでしょうか。
150人も無理です。というか仕事関係をのぞくと、自分の場合は
連絡の取れる友人自体がせいぜい5人くらいです。

人気記事: