クリスマス、忘年会のシーズンが近づいてきて、
部の飲み、同僚との飲み、旧友との飲み、などが増えてくるかと思います。
世間一般的には。

しかしプログラマ、データ分析官は、
繁華街のネオンや、イルミネーションの眩しさよりも、
スクリーンの眩しさが目にしみる実装の日々かと思います。

とはいえ、それでもなお、
飲みに行く機会が生じたらどうするか。
そして自分がお店をセッティングしなければならないとしたら。

我々の手元にあるのは何でしょうか。
経験に基づく良いお店のリストは無し。
良いお店を教えてくれる人脈は無し。
カテゴリで探そうにも、食べたいものに対するこだわりも無し。
猜疑心のため口コミに対する信頼も無し。

一方で、近年、スマホの発展とともに、
あらゆる人にとって写真撮影が一般的・日常的になってきました。※ 1
また、スマートフォンで撮影する対象は、
友人など身近な人や、料理の写真が多いかと思います。※ 2
 
そこで、
ぐるなびの「レストラン検索API」とMicrosoftの「computer vision api」を用いて
一緒に飲みに行きたい人や食べたい料理、
行きたい雰囲気のお店の写真を用いてレストラン検索できるウェブアプリ、
「gurunavision」を開発しました。
gurunavision11


| (1) イメージ動画
gurunavisionの概要がわかる1分動画となります。
※概要動画があるのなら、上記の無駄に鬱な前フリは不要なのでは、ということはさておき。



| (2) システム構成
実装はjavascriptとphp、サーバはaws ec2となります。

architecture

処理フローは下記となります。
1). 画像を送信
2). 画像をmicrosoft computer vision apiに送信
3). 解析結果の一部を用いてデータ可視化
4). 「この写真を用いて検索」をクリックされると
  画像情報と現在位置(あるいは選択エリア)をサーバに送信
5). サーバで、受け取った画像情報を前処理。
  写真内の人物や風景、写っている食べ物や、
  色味などから総合的に判断し、
  ぐるなびapiに投げるためのURLを自動生成
6). ぐるなびapiに上記URLを送信
7). 検索結果を表示


| (3) 詳細解説:画像解析フェーズ(Microsoft computer vision api)
gurunavisionは、「画像解析」と、「レストラン検索」の、2つのフェーズからなります。
まずはMicrosoft computer vision apiを用いた画像解析について解説します。

画像解析apiは
GoogleのCloud vision api
IBMのWatson api(Visiaul Recognition)
など様々な企業から提供されております。

それぞれ、画像のタグや性年齢推計、表情(感情)判定など機能自体には大きな差がないのですが、
今回、Microsoft computer vision apiを採用した理由は、
・タグ付けの精度(タグおよび確信度)が正確
・性年齢推計精度が正確
・写真についての正確な説明文(description)を出力可能
といった観点からとなります。

とはいっても上記はあくまで個人的な見解ですが、
下記公式サイトにてcomputer visionのトライアルが可能です。

msapi

Microsoftの画像解析系のapiは大きく下記の5つあります。
Computer Vision画像を解析しタグ付け
Content Moderator画像中に不適切なコンテンツが含まれていないかのチェック
Emotion画像中の人物の表情からの感情推計
Face画像中の人物の顔および目や鼻などの各パーツ位置把握
Video動画中の人物のトラッキングや動きの判定、タイムラインにそったタグ付け

上記の中で、今回利用した、Microsoft Computer Vision apiで取得できる項目は主に下記のようなものとなります。(一部)
Description文章での画像の説明とその確信度
Tags画像の特徴(タグ)およびその確信度
Image Format画像ファイル形式
Image Dimentions画像サイズ
Categories画像のカテゴリおよびその確信度
Faces画像中の人物(いた場合)の位置、および推計の性年齢
Dominant Colors画像中の主な色味

今回のgurunavisionでのような
写真から、tagと推計の性年齢などを配列に格納するためのコードは下記となります。
※正確には、このあとphp経由で次の処理に移るため、文字列として保存し、サーバに投げて、サーバ側でparseして配列に格納。
※事前にAPI利用のためのアクセスキーを取得する必要があります。
 (下記コード中の”key”に取得したアクセスキーを入力)
※要は下記コード中、parse_data内に各種データが入っているので、
 parse_data.description、とかparse_data.facesとかparse_data.tagsとかすればよい。



上記で得られたタグ情報などを、次のフェーズであるレストラン検索に用います。


| (4) 詳細解説:レストラン検索フェーズ(ぐるなびレストラン検索api)
ぐるなびレストラン検索apiは、指定した任意の条件でレストラン検索ができるapiとなります。
条件は、場所(緯度・経度あるいはエリア)、業態、のほか、
ランチ営業、禁煙席、カード利用、飲み放題、
個室、深夜営業、駐車場、電源、プロジェクタ…etcの有無など多岐に渡ります。
公式サイトのリクエストパラメータページにて一覧を確認できます。
また上記ページではapiを利用した、javascript、php、python、javaでのサンプルプログラムが紹介されています。

ぐるなびapiも、apiテストツールが提供されておりますので、
テストページにて、各種条件でのレストラン検索のトライアルが可能です。

gnaviapi


まずはjavascriptから受け取ったパラメータを用いて、前処理し、
ぐるなびapiに投げるためのURLを自動生成します。
これは単純にタグをそのままフリーワード条件としてぐるなびapiに投げるにしても、
複数あるタグの中からどのタグを(レストラン検索として)優先するか、
タグ以外の性年齢推計なども、条件としてうまく加味するためとなります。

画像からのタグや、もし人が写っている画像の場合、
性年齢や人数をどのように検索条件に加味するか、のルールはあらかじめ用意しておき、
さらにセレンディピティを出すために、意外なタグも混ぜる、ということが、
裏側の処理となります。

例えば、基本的なルールの1つである「デート」用途の検索ロジックは、
「画像に、男性、女性が1人づつ、かつその年齢が45歳以下の場合」としています。



ペット入店可なお店の検索の場合は、
「画像に、”animal”、”mammal”、”dog”、”cat”いずれかのタグが含まれている場合」としています。



上記のようなベースルールを、100種類以上、事前に用意しておき、
あとは必要に応じてタグからのアドリブ(tagをそのままフリーワードパラメータに投げる)で対応しています。

%e3%82%b9%e3%82%af%e3%83%aa%e3%83%bc%e3%83%b3%e3%82%b7%e3%83%a7%e3%83%83%e3%83%88-2016-11-26-13-31-34

自動生成されたurlを用いてレストラン検索apiになげた結果から、
クライアント側に表示するhtmlを生成します。




以上が、一通りの動作となります。

gurunavision11

gurunavision22


| (5) 補足:現在位置取得
GPSによる現在位置の取得についてですが、
ユーザのプライバシー保護の観点から、2016年4月以降の最新のChromeにおいて
ユーザの現在位置の取得は暗号化されたセキュアな通信(https)のみに限定されました。
なお、今後、Safariなど他のブラウザにおいても現在位置の取得はhttps接続のみに
限定されることが予想されております。

%e3%82%b9%e3%82%af%e3%83%aa%e3%83%bc%e3%83%b3%e3%82%b7%e3%83%a7%e3%83%83%e3%83%88-2016-11-26-14-03-33

%e3%82%b9%e3%82%af%e3%83%aa%e3%83%bc%e3%83%b3%e3%82%b7%e3%83%a7%e3%83%83%e3%83%88-2016-11-26-14-06-44


対策は、httpsサイトにしましょう、ということに尽きます。
もはや、Googleはすべての通信をhttps化推奨としており、
検索順位においてhttps化サイトを優先することを公言しております。

なお、awsでは、AWS Certification Managerで無料で証明書を発行しhttps化するフローが整備されており、
今回のgurunavisionでもawsでhttps化フローを行いました。



以上、gurunavisionのご紹介となりました。
これでレストラン探しも怖くないですね。
あとは、肝心の、そもそもの飲みにいく機会、飲みにいく相手、を待ちましょう。


Notes:

  1. ※1:FUJI FILMの調査では、写真アプリ利用者は世界で10億人、撮影数は、写真フィルムの20倍。
  2. ※2:MMDの調査ではスマートフォン撮影対象のTOP3は「友達・家族・恋人」、「自然」、「料理」 (MMD研究所,2016)