最近、どの業界も、A.I、人工知能絡みのリリースラッシュで、
「リリース自体、人工知能によって作られているのでは、ていうかbotでは」
と感じるほどでして、本当に価値のある素晴らしい取り組みと、
名前だけ冠したものが混在している状況かと思います。

一方、人が解釈する必要がある(自動生成するにしても軸を決める必要がある、
そしてインタラクションができる)
データ可視化、データビジュアライズも盛り上がりを見せており、
ここ1、2年で、データ可視化だけをテーマにした書籍も多く出版され、
カンファレンス、コンペなども盛んに行われております。

もちろん昔から、データ可視化、というジャンルは存在しておりましたが、
近年ではビッグデータをインタラクティブに扱える
ツールとしてのTableau、プログラミング言語としての、processing、d3.js、などが
様々なシーンで活用されていることは新しい潮流かもしれません。

さて、しかし社内外でデータ可視化、といった話をするときに、
相手の立場(データ分析において担当する領域)によって、
イメージしているもの、重視していることがかなり異なることを感じております。

データ可視化はなぜ必要なのか。何が重要なのか。
シンプルすぎて目的に合わないものを作ったり、too muchなものを作ったりしないためには、
まずはデータ分析における一般的なフローを整理することが必要かと思います。

(0) ヒアリング・課題設定

(1) データ収集

(2) データ探索

(3) 前処理

(4) データ分析(集計・統計処理・機械学習)

(5) サマライズ

(6) アウトプット(実装、デモンストレーション)


ここで、データ可視化が活用されると思われるのは、
(2)データ探索
(5)サマライズ
(6)アウトプット(実装、デモンストレーション)
となり、それぞれで目的も、重視する点も異なるかと思います。

(2)データ探索
データ探索では、とにかく様々な切り口を切り替えて、
データの全体像を把握すること、と
様々な仮説の元となる疑問を見つけていくこと、が重要かと思います。
必ずしも変数やデータ範囲がスコープされている必要はなく、
時には、このデータはノイズだらけだ、ということに気づくこと自体が重要かもしれません。

(5)サマライズ
一方、サマライズでは、何を伝えたいか、ということを目的に、
シンプルに、必要最低限の要素と、最適な表現(色の違い、大きさの違いなど)を
選択していくことにあります。
インフォグラフィックに関する言及含め、一般的にはこのフェーズにおける
データ可視化、が最も多いと思います。

(6)アウトプット(実装、デモンストレーション)
データ分析は(5)で終わることも多いのですが、
時に、(6)まで必要なことがあります。
つまり、データ分析を経た上で、そのデータ自体やデータ分析の取り組みを
魅力的にデモンストレーションするということです。
たとえば、”あるデータをより多くの人に利用してもらいたいためのPR”、もあるでしょうし、
“ある企業・団体における、様々なデータを使った分析に取り組んでいることのPR”もあると思います。
からなずしもシンプルであることが重要ではなく(伝わることが重要ではありますが)、
時には複雑性自体が魅力にもなり得ます。
表現的な要素も絡んでくることもあり、
実はここはここでレッドオーシャンになりつつあります。


上記3つのフェーズの違いの、どの会話をしているのかを整理することで、
取り組むべきデータ可視化のチーム内での共有が進むと思います。


さて、それぞれのフェーズで重要なことがあると述べましたが、
一方でどのフェーズでも共通して重要なこともありそうです。
最近、データ界隈で話題の下記書籍から、データ可視化に関連しそうな箇所を
引用してみます。




特に天気予報について述べられている第4章には、
“人間の判断力とコンピュータの力の両方を使う天気予報”では何が行われているのか
などの言及があり、ヒントになりそうです。

“天気予報が形而上学の実践だと言ったら驚くかもしれない”ですが、
天気予報とは“気象学の世界で人間と機械がどう関わればいいか、という視点を持っている”
ものだとのことです。

なぜでしょうか。なぜ機械だけで予測が完結できないのでしょうか。
“77テラフロップスというスピードでデータ処理をおこなうコンピュータよりも
人間のほうがうまくできることは何か。それは”見る”こと”
なようです。

そんなことは無いんじゃないか、と思うかもしれませんが、
下記のような一例でも人間の”見る”ことの能力は明らかです。

“インターネット上でのスパム防止やパスワード保護のためによく使われている技術に
「キャプチャ(CAPTCHA)」がある。画面上の文字列を少し歪めるものだが、
こうした加工を施すと、コンピュータは混乱してしまう。
融通が効かないため、ほんの少しでも改ざんされたパターンは
認識することができないのである。
対する人間は、純粋に進化上の必要性から非常に発達した視覚野を持っており、
データのなかの歪みをすばやく分析して、パターンや体系といった
抽象的な特性を認識することができる。
天候システムのなかでは、そうした特性が非常に重要な意味を持つ。”


“(アメリカの)国立気象局の予測は、コンピュータと人間の共同作業によって生み出されている。
気象局の統計によれば、コンピュータだけの予測より、
人間が関わったほうが、降水予測については25パーセント、
気温予測については10パーセント精度をあげることができるという。
この比率はずいぶん前から変わっていないらしい。
コンピュータの発達とともに予報官の能力も高まっているということだ。
視覚のおかげである。”



さて、しかし”見る”という作業は非常にあいまいのように感じられ、
そこからの判断は主観ではないか、と思いませんでしょうか。
この”見る”というフェーズで、データ分析官は何に気をつけるべきでしょうか。

“優秀な予報官になるには、コンピュータから出てくる大量のデータを区分しながら、
視覚的に、そして抽象的に考えることができなくてはならない。”


“個人の判断を加えれば、予測にバイアスがかかる恐れがある。
(中略)自分が描いた物語に自身を持ち、それと反する事実や状況を無視してしまうかもしれない。”


これについては本書籍よりも下記記事でご紹介している書籍を参考に、
人間はどのような心理バイアスにかかりやすいのか、を意識することが重要かと思います。

「データ解析に潜む”思考のトラップ”」




上記、心理バイアスに気をつけながら、
機械によるデータに、人間の解釈を理念を持って取り入れていく、
そのために”データ可視化”は非常に有用な手段だと言えそうです。


いかがでしたでしょうか。
冒頭述べたように、人工知能の発達により、
人間を凌駕するシンギュラリティが訪れる、ということがささやかれておりますが、
(データ可視化して)”見る”ということの人間の能力を考えると、
まだまだその日は遠そうです。

そして”見る”ことが重要であるならば、
人の目を見て話すことができない私は、
大切な何かを失っている気がしてなりません。