近年、多くの企業が連日、AIやビッグデータ関連のリリースを出しておりまして、
それに伴い、データサイエンティストの市場価値も高まっている状況です。

しかしながら今後、AIが発達して自動でデータの収集や分析、可視化を行う世界が来た時、
データサイエンティストの価値とは何になるのでしょうか。

データサイエンティストとは、データサイエンティスト協会によると
統計・機械学習スキル x プログラミング(エンジニアリング)スキル x ビジネススキルを併せ持ったものとのことです。
では、それぞれのスキルをデータサイエンティストから除くと、
一体何者になるのでしょうか。ただの人でしょうか。

今後AIが担ういろんなものを除いてもそれでも残る価値、
それが将来的に必要な本質的な”データサイエンティスト”の価値なのかもしれません。

そこで今回は、
「word2vecを用いて、”データサイエンティスト”の価値を検証」したいと思います。


まずは簡単にword2vecの説明をします。
word2vecとはその名の通り、文章中の単語をベクトルに変換する技術となります。
各単語を、任意の特徴量(たとえば100個の特徴量)でのベクトルにしていきます。

各単語のベクトルの、どの特徴量をどのように値を決めるか、は、
文章中の単語同士のつながりを用います。
ある単語が出現したとき、別の任意の単語の出現確率を計算するには、
ある単語ベクトルのどの特徴量をどのような値にすべきか、ということをニューラルネット的に計算していきます。

各単語をベクトルにすると何がよいかというと、単語の線形計算ができるということです。
単語間の距離(類似度)を計算したり、加算・減算ができます。
つまり、「王様 – 男 + 女 = 女王」とか「東京- 日本 + フランス = パリ」などの計算ができるということです。

そう、今回は
「データサイエンティスト – データ」、
「データサイエンティスト – プログラミング」、
「データサイエンティスト – 分析」、
とは何か、を求めようとしています。

さて、word2vecを用いるためには、各単語の特徴ベクトルを計算するための元データ、すなわちテキストが必要となります。
wikipediaなどを食わせてもよいのですが、
せっかく、本サイトはデータ分析、データサイエンスに関する記事を執筆していますので、
本サイトの全記事を用いて各単語の特徴ベクトルを計算しようと思います。


まずは、mirandora.comのリンクから、”?p=”を含む記事リンクをクローリングし、
その中で記事本文箇所である”post-body”箇所を抽出していきます。



上記の処理で、all_textに、全記事テキストを格納できました。

word2vecで処理できるよう、
スペース区切りの分かち書きしたテキストに変換しつつ、
前処理として、形態素解析をして不要な単語の除去、
および各単語を基本形に変換しています。

text_mining



※ちなみに、jacomeは日本語以外の文字が混在しているとエラーになるようでして、
 余計な文字を除去する処理を挟んでおります。
 (参考記事:日本語以外の文字と記号を排除し日本語の平文コーパスを作成する呪文

さて、これでword2vecを用いる用意はできました。
早速、分かち書きしたテキストを流し込んでみましょう。




ようやく検証のための準備が整いました。
まずは”データサイエンティスト”に関係する単語を出してみます。
、、というところですが、”データ”と”サイエンティスト”が別の単語して別れて処理されておりました。
しかし、本サイトにおいて、”データサイエンティスト”以外の意味で、
“サイエンティスト”について述べる事はほぼありませんので、
“サイエンティスト”=”データサイエンティスト”として、関係する単語を出してみます。

データビジュアライズ0.88009
業務0.87979
参入0.87371
地道0.86989
イノベーション0.86675

「データビジュアライズ」、「イノベーション」という華やかなワードがある一方、
「地道」という妙に生々しいワードがあることで納得感がありますね。


さて、では、いよいよ本題である検証に入りたいと思います。
まずは、「データ」がない「データサイエンティスト」とは何なのか。
※つまり「データサイエンティスト」 – 「データ」

役割0.58428
集中0.56401
主義0.56064
文化0.54829
体験0.53060

エモい結果となりました。
データを扱えなくても、「役割」としてのデータサイエンティストは残るということでしょうか。
そんなデータサイエンティストは、「主義」や「文化」や「体験」で勝負するとよさそうです。


次に、「分析」のない「データサイエンティスト」とは何なのか。
※つまり「データサイエンティスト」 – 「分析」

役割0.57317
変化0.55608
果たす0.51304
文化0.50304
デバイス0.49489

「データ」をのぞいた結果とある程度似ていますが、「デバイス」という単語が気になります。
「デバイス」て。人では無くなってしまいました。
せめて、「分析」はできる状態はキープする必要がありそうですね。


最後に、「思考」のない「データサイエンティスト」とは何なのか。
※つまり「データサイエンティスト」 – 「思考」

生存0.41615
分離0.38316
ダウンロード0.37998
検査0.37643
有効0.37129

もはや「生存」
生きているって素晴らしいことです。


上記、検証により、「データサイエンティスト」は「データ」処理自体はAIに任せる時代が来たとしても、
「文化」や「体験」などから「主義」を作り出す作業、つまり”なぜ”、”何をやるのか”としての「役割」は残りそうです。
では今現在の業務の中心である機械学習手法を学ぶことに価値がないかというと、そんなことはなく、
テクニカルな手法を知ることで、表面的ではない、実践的な「分析」や「思考」能力を高めることにつながると思います。
逆にもしも「分析」や「思考」を高めることができなければ、「デバイス」です。
でも、大丈夫、「生存」はしています。

以上、word2vecを用いたデータサイエンティストの価値の検証でした。