Python メモ003

twitterAPIを使って、キーワード指定で結果数を1ページとして指定範囲ページ分取得する。
その後JSON形式で出力する。
取り出したデータを1つのリスト人まとめる
リストの単語数を求める
一意な単語数を求める
ツイートの中の文字の占める割合を求める
ツイートの中の平均語数を求める
データを保存する

twitter_search = twitter.Twitter(domain="search.twitter.com")
search_results = []
for page in range(1,6):
 search_results.append(twitter_search.search(q="KEYWORD",rpp=結果数,page=page))

ここで問題はいつものように文字コードとマルチバイト。


NLTK(テキスト分析ツール)のインストール
easy_install pip

twitterのリクエストは認証済/匿名で1時間に350回/150回との事

easy_install nltk