collect, analyze, and visualize data
/ produced by Hiroyuki Shinoda
collect, analyze, and visualize data
Article
2013.7.8
twitterのデータを加工する

今回はtwitterのデータを用いた分析のために、
twitterからのローデータの取得に必要な手順を書いていきます。

まず、はじめにtwitterからのローデータ取得については、
2013年3月に大きな変更がありました。

以前は、URL指定(RSS、XML、Atomなどで)で、
特定のアカウントの、つぶやきデータを取得することが可能でした。
そのため、cgiなどで都度URL経由で任意のアカウントのつぶやきを取得してきて、
ビジュアライズするといったことが容易に可能でした。

しかし、2013年3月以降、
API経由、もしくはダウンロードデータでの分析が必須となり、
上記URL指定でのつぶやき取得は廃止されました。
※追記:apiの更新の詳細、廃止時期の延期情報などは以下で確認できます。
https://dev.twitter.com/blog/api-v1-retirement-final-dates

今回は、主に自分のアカウントのつぶやきをダウンロードし、
ビジュアライズするまでのフローについて見ていきます。

具体的には以下2つの手順となります。

(1) データの取得
(2) データの整理、調整(時間補正、日本語変換)

(1) データの取得
まずは自分のtwitterアカウント画面からつぶやきデータのダウンロードを行います。
※今後更新される可能性がありますが、
 現時点で、英語アカウントからの順次提供のようです。
※そのため、全てのアカウントでデータ取得が可能かは不明です。
 もし日本語アカウントで以下フローが行えない場合、
 念のため英語の設定に変えてみてください。

「アカウント設定画面」を下にスクロールしていくと、
「Request your archive」ボタンがありますので、クリックします。

20130504_93620

すると、受領およびすぐにデータがメールで送付される旨、表示されます。
早ければ1、2分でメールが届きます。

20130504_93625

twitterからメールが送付されたら、本文中の「Go now」を押すと、
アカウント画面にリンクしますので、そこから「Download」を押しましょう。
「tweets.zip」というファイルが取得できます。

20130504_93664

20130504_93665

以上で、データの取得は完了です。

(2) データの整理、調整(時間補正、日本語変換)

まずはデータを確認してみましょう。
ダウンロードした「tweet.zip」の中身は以下の構成となっています。

20130504_93696

その中から、まずは「index.html」をクリックしてみましょう。
ダウンロードしたデータを、任意の指定した区間で確認できます。

20130504_93707

次に、データ加工のためのローデータを確認します。
データ加工のためのローデータは
フォルダトップにある「tweets.csv」あるいは、
「data」→「js」→「tweets」にある、任意の区間のjsファイルとなります。

※jsファイルをもとにデータを取得する際は、
 文字がエンコード文字となっていることに注意してください。
 任意の方法でデコードする必要があります。
 (文字のデコードの方法は今回は長くなりますので省略します。)

上記のデータの中から今回、分析に必要な箇所のみ(時刻、つぶやき)
をデータから抜き出して整理しましょう。
時刻は、年月日、曜日、を分けておくと便利かと思います。

20130504_94256

その際に、時刻の修正をします。
ローデータのファイルは協定世界時となっているため、
JST(日本標準時)にするには9時間進める必要があります。
※実際、ローデータと自分のつぶやきの時刻に
 9時間のずれがあることを確認してみてください。
※今後、日本語アカウント対応になれば、デフォルトJSTとなる可能性もあります。

上記でtwitterのローデータの取得および、ビジュアライズの準備が出来たかと思います。
あとは、任意の方法でビジュアライズしてみてください。

例:twitterのつぶやきを円形に表示する。

20130411_34243

人気記事: