Python メモ003
twitterAPIを使って、キーワード指定で結果数を1ページとして指定範囲ページ分取得する。
その後JSON形式で出力する。
取り出したデータを1つのリスト人まとめる
リストの単語数を求める
一意な単語数を求める
ツイートの中の文字の占める割合を求める
ツイートの中の平均語数を求める
データを保存する
twitter_search = twitter.Twitter(domain="search.twitter.com") search_results = [] for page in range(1,6): search_results.append(twitter_search.search(q="KEYWORD",rpp=結果数,page=page))
ここで問題はいつものように文字コードとマルチバイト。
NLTK(テキスト分析ツール)のインストール
easy_install pip
twitterのリクエストは認証済/匿名で1時間に350回/150回との事
easy_install nltk