collect, analyze, and visualize data
/ produced by Hiroyuki Shinoda
collect, analyze, and visualize data
Article
2019.7.7
ローランドかローランド以外かをDeepLearningで判別していく。


「世の中には二種類の男しかいない。
俺か、俺以外か」


伝説的なカリスマホストで
現在はホストクラブのオーナーであり実業家のローランド氏の、
あまりにも有名なセリフです。


 

 

ローランド氏を語る際に、
特徴的なブロンドヘアーや長身のスタイル、彼の経歴、ストイックなプロ意識もさることながら、
やはり数々の印象的な名言を外すことはできないでしょう。

 

私は30代男性データサイエンティストですが、
ローランド氏のことが気になりすぎて、
自身の名言を解説した上記書籍を購入し、
通勤電車の中、何度も読み返しました。


そこで、ふと思いました。


世の中には二種類の男しかいない。
ローランドか、ローランド以外か、なのであれば、
DeepLearningで判別できるのでは、と。


それでは、早速やっていきましょう。


[目次]
(1) ローランドのデータ収集
(2) ローランド以外、としてふさわしい存在とは
(3) ローランドやローランド以外がよく使う頻出ワードとは
(4) 至高の名言たちをDeepLearningに学習させていく

(5) 総括



| (1)ローランドのデータ収集


ローランドか、ローランド以外かを、何をもって判別すべきでしょうか。
たとえば画像で判別することももちろん可能ですが、
彼の真のアイデンティティーは、外見ではなく、
前述の通り「言葉」にあると、
「言葉」に非常に強いこだわりをもっていると、
彼自身の発言を見ていて感じます。


“俺にとって言葉とは、作品のようなもの。
言葉を文字にすると、句読点ひとつで相手の受け取り方や印象がまったく変わる。
比喩や言い回しの工夫で、些細な一言がとても味わい深いものになったり。
言葉ひとつで人生が変わったり、明るい気持ちにも嫌な気持ちにもなったりする。
まさに、奥深き芸術の世界なのだ。”


“ホストという仕事柄、言葉には常にストイックに向き合い続けた。
ボキャブラリーの収集は、もはや自分の生き甲斐と言えるし、
日々新しい表現を追求している。
ドライブ中にふと言葉が浮かび、思わず車を停めてメモすることもあるぐらいだ。”

(『俺か、俺以外か。ローランドという生き方』より引用)


そこで、今回は、様々な発言を収集し、
ローランド氏の発言か、そうでないかを判別していくことにします。


ローランド氏の発言は、上記書籍で取り上げられている
55の名言、および、彼のtwitterから印象的なつぶやきを166個、収集しました。
例えば、下記のようなものとなります。


さて、これでローランド氏の発言データは集まりましたが、 では、ローランド氏以外とは、
どのように定義し、その発言を収集すべきでしょうか。



| (2)ローランド以外、としてふさわしい存在とは


ローランド氏以外のコメントとして、
あまりにもかけ離れた存在の発言や、
無味乾燥なコメントを収集し、判別しても面白くありません。
やはり、ここでは、ローランド氏に匹敵するくらい、
印象的な発言をしている方々を、「ローランド以外」とするべきでしょう。

そこで、今回は、4つの異なるタイプの「ローランド以外」を
定義してみました。


・新感覚現代ホスト「あんじゅ」
まずは、ローランド氏と同業のホストの方のセリフを、
ローランド以外、としていれておきましょう。
ホストの選定は、非常に悩みましたが、
ローランド氏とは別の意味で発言が印象的な「あんじゅ」氏とさせていただきます。


端正な顔立ちとは裏腹に、発言は非常にストレートかつ強烈でして、
ここで紹介できる彼の魅力的な発言は限られております。
ぜひ、あんじゅ氏公式twitter
直接のぞいてみてくださいませ。
彼の発言は、公式twitterから185のセリフを収集いたしました。


・「村上春樹」氏の小説からのセリフ
次に、ローランド氏自身が「言い回しが参考になる」とのことから、
愛読していると公言しており、
独特でユーモラスなメタファーが特徴的な
「村上春樹」氏の小説からのセリフを収集することにしましょう。

私もローランド氏に負けず劣らず、村上春樹が好きですので、
彼の小説(およびエッセイなど)は、ほぼ全て保持しております。


そこで、村上春樹の作品中から印象的なセリフを225個ほど、
独断と偏見で選別し収集しました。
ええ、目チェックによる手打ちでのデータ入力です。


収集したデータは、例えば下記のようなものとなります。


「たとえばファン・ゴッホの絵の中に生き続ける、あの名ものなき郵便配達夫のように?」(『騎士団長殺し』より引用)

「インターネットはジャングルではうまく働かない。」(『騎士団長殺し』より引用)

「日焼けがとても魅力的だよ。まるでカフェ・オレの精みたいだ。」(『ダンス・ダンス・ダンス』より引用)


非常に印象的ですね。
少なくとも、私が日常生活で発することは決してない、磨き抜かれた言葉です。



・至高のキャッチフレーズでおなじみファッション雑誌「MEN’S KNUCKLE」
印象的なセリフを収集するときに、やはりこの雑誌は、はずせないでしょう。
もはや、キャッチコピーが印象的すぎてファッションが目に入らないという、
ファッション雑誌の概念を変えた存在です。


「ガイアが俺にもっと輝けと囁いている」


「大胆と書いてヨーロピアンと読むのがスタンダード」


こちらからは、伝説的にバズったものを中心に、
225のセリフ(もといキャッチコピー)を収集いたしました。



・ナルシストなセリフなら「地獄のミサワ」
最後に、ある意味、ローランド氏の発言と、一番判別が難しいかもしれないダークホース、
ユーモラスでシュールなイラストとナルシストな発言でおなじみ、
「地獄のミサワ」を、”ローランド氏以外”に加えたいと思います。


[「地獄のミサワ」公式ホームページより]




以上、まとめますと、下記のようなデータを収集いたしました。

発言種別 データ数
ローランド 221
村上春樹 225
あんじゅ 185
MEN’S KNUCKLE 225
地獄のミサワ 190


| (3)ローランドやローランド以外がよく使う頻出ワードとは


まずは、上記のとおり収集した各文章を形態素解析し単語別に分割、
全セリフでの単語辞書を作成し、各文章を単語ベクトルに変換します。
この過程で、「の」や「で」などの助詞は除外しております。(その他、細かい前処理も)

結果、全1,046のセリフ中、3,313個の単語が抽出されました。


ここで、いったん、各発言者ごとに、
頻出ワードを見てみましょう。


[ローランドの頻出ワード]

単語 頻度
91
ローランド 30
言う 25
自分 24
ホスト 23
22
19
16
人生 14
クラス 13

Top1が「俺」、Top2が「ローランド」、と
非常に自己言及が多いことが特徴です。


たとえば、下記のようなセリフが該当します。


「俺はローランドだからね。コンビニには手を染めないよ」


「大は小を兼ねる。ローランドを見たら歌舞伎町のホスト全員を見たことに匹敵する。」


その他、気になるワードとしてはTop10の「クラス」でしょうか。
これは「俺クラス」とか「ローランドクラス」のような文脈で使われております。


「塵も積もれば…なんて悠長な事言ってるからダメなんだ。
俺クラスになると山を積もらせちゃうからね。」


「月に自分が出向こうとしてる時点で月に負けてない?
俺様クラスになると逆に月を来日させる方向で考えてるからね。」



[あんじゅの頻出ワード]

単語 頻度
61
好き 54
30
お前 29
22
ホスト 20
18
16
死ぬ 14
水商売 12

上位ワードは、同じホストとして、ローランド氏に近いものが並んでいるかと思いきや、
Top5以降、「金」「嘘」「死ぬ」「水商売」と
なかなかキワドイ言葉
が並んでおります。


「死にたいって言ったら誰かが助けてくれるけど、
それに甘えて繰り返してたら一人ぼっちになって死にたいって言える相手すら失うよ
ソースはあのめっちゃフェラうまかったあいつ」


「水商売で売れるための一番大事な努力は
お客さんの良い所探して見つけて『好きになる努力』することだと思うのです。」


ちなみに、「死ぬ」は「死ね」という言い方のほか、
「死ぬほど」という形で使われることもありました。



[村上春樹の頻出ワード]

単語 頻度
よう 63
39
28
みたい 24
人間 19
彼女 14
14
時間 13
好き 12
世界 12

さすが、印象的なメタファーでおなじみ、村上春樹氏、
「よう」「みたい」が上位にきております。


「胃は外まわりの銀行員の皮かばんみたいに固くなっている。」


「君のいないぼくの生活は”マック・ザ・ナイフ”の入っていない
“ベスト・オブ・ベスト・ダーリン”みたいなものだ」


その他、Top10のワードをみておりますと、
まるで、”僕”と”君”だけで”世界”が構成されている”みたい”だった。
“時間”を刻む長針と短針のように。
そう考えてから、”僕”は丁寧に”時間”をかけてサラダを作り、
“彼女”のことを思い出しながら食べた。
※だいたいこんな感じのニュアンスでTop10のワードが入っております)
※今回収集したのは、あくまでセリフのみですが。



[MEN’S KNUCKLEの頻出ワード]

単語 頻度
オレ 31
22
ワル 22
伊達 21
20
19
16
モテ 12
12
騎士 11

「ワル」「伊達」「黒」「モテ」のほか
「神」「騎士」などがTop10にあがっており、独特すぎて、これまでと全く様相が異なります。
「神」「騎士」が頻出ワードのファッション雑誌とは。


ちなみに次点で「ストリート」や「輝く」、「呼ぶ」などもあり、
こちらも非常にMEN’S KNUCKLEらしさを感じます。


「知ってるか?群馬は最高の伊達ワル産地」


「ストリートという劇場に舞い降りた黒騎士」


「そしてオレは伊達ワル新世界の神になる」



[地獄のミサワの頻出ワード]

単語 頻度
77
57
女子 31
27
ちゃう 24
居る 18
それ 16
12
分かる 12
お前 11

「…」や「ー」、「ちゃう」など、
言い回しに関する単語が、上位にあがっております。


「あーでも俺のイタリア語ローマ訛りあるからー」


「もしかして…イタリアに行ったこと無いのを気にしてたり…する?」


「フゥ〜ゥ…結果が先に分かっちゃうっていうのもツラいもんなんだぜ…?」


ニュアンスとしてはローランド氏に近いナルシズムを感じたのですが、
独特の言い回しで、判別できそうな気がしてきました。


では、いよいよ、ローランドかローランド以外かを判別していきましょう。



| (4)至高の名言たちをDeepLearningに学習させていく


今回は、DeepLearningの1種であるCNN(畳み込みニューラルネットワーク)を用いて、
ローランド、あんじゅ、村上春樹、MEN’S KNUCKLE、地獄のミサワ、の
5つのクラス分類をしていきます。


各発言者の文章から、それぞれ
ランダムにtrain_dataを140個、test_dataを40個抽出してきました。
つまり、train_dataが140 * 5 = 700、test_dataが45 * 5 = 225となります。

それらをCNNにかけて分類した結果が下記となります。


  precision recall f1-score support
ローランド 0.73 0.53 0.62 45
あんじゅ 0.60 0.73 0.66 45
村上春樹 0.54 0.82 0.65 45
MEN’S KNUCKLE 0.88 0.51 0.65 45
地獄のミサワ 0.74 0.69 0.71 45

ランダムに分類すれば20%の正答率となるところ、
なかなかの精度で分類できていると言えるのではないでしょうか。
ローランド氏の発言は73%の精度で判別できているようです。
(precision:0.73、recall:0.53)


5つの分類の中でも、やはり、MEN’S KNUCKLEが一番精度高く分類できております。
一方、村上春樹は、やや苦戦しております。


では、次に、もっともローランド氏の発言と”誤推計”してしまったものは、
誰の発言だったのでしょうか。
混合行列も見てみましょう。


    推計
    ローランド あんじゅ 村上春樹 MEN’S KNUCKLE 地獄のミサワ
正解 ローランド 24 10 6 2 3
あんじゅ 1 33 9 0 2
村上春樹 1 6 37 1 0
MEN’S KNUCKLE 5 1 10 23 6
地獄のミサワ 2 5 7 0 31

DeepLearningがローランド氏の発言だと推計した33のうち、
実際にローランド氏の発言だった数は、24、でしたが、
ローランド氏の発言と推計したものの、実は異なる発言者だった数がもっとも多かったのは、
MEN’S KNUCKLEのフレーズとなりました。
※といっても、33の推計のうち、5となりますが。


では、どのような、MEN’S KNUCKLEのフレーズが、
ローランド氏の発言と誤って推計されたのでしょうか。


「俺の行き先?あの太陽にでも聞いてくれ」

「俺はもう既に本物のヒョウなのかもしれない」


ああ、、これは、、確かにちょっと難しいかもしれない。。


その他、ローランド氏の発言と推計されたものの、
地獄のミサワのセリフだったものも見てみましょう。


「もしかしてだけどさ俺に褒められたくて喋ってる?」


くぅ〜!これも絶妙!


今度は逆に、地獄のミサワと推計したものの、
本当はローランド氏のセリフだったものも見てみましょう。


「持っている財産?今俺が噛んでいるガムぐらいだねぇ」

「ごめん、俺、貴族だから分からない。」


すごいミサワ感!!ローランド氏の発言なのに…!



| (5)総括


いかがでしたでしょうか。


今回はDeepLearningを用いて、
セリフから、ローランド氏か、それ以外を判別するモデルを作成し、
それなりの精度を出すことができました。

一方、同じローランド氏のセリフでも、
MEN’S KNUCKLEに掲載されれば、MEN’S KNUCKLEぽくなる可能性があり、
地獄のミサワのイラストとともに見せられれば、ミサワ感満載になる可能性があります。
つまり、ローランド氏の至高の名言は、ローランド氏の口から発せられている、
ということとセットで名言なのだと思います。


いつか、私も、ローランド氏のような言葉が似合う男になりたいです。


人気記事: