雲雀は高く空を舞い このページをアンテナに追加 RSSフィード

「ひよこは高く空を舞い」について

2009-01-13

[]エントリーを得るよ (2) エントリーを得るよ (2) - 雲雀は高く空を舞い を含むブックマーク はてなブックマーク - エントリーを得るよ (2) - 雲雀は高く空を舞い エントリーを得るよ (2) - 雲雀は高く空を舞い のブックマークコメント

とりあえずは、id page post含む過去のエントリをごっそり取得することにした。未来のエントリはしばらくはha_dzu_ki任せでいいや。

方法だけど、API経由で指定したキーワードページのポストが取得できるみたいなので、

  1. IDデータベースの構築
  2. IDをキーにしてキーワードページのポストをN件取得。

かなぁ。

IDデータベースの構築には2つくらい方法があって

(1) パブリックタイムラインをたどって構築

    • パブリックタイムラインに出ないIDを取得できない

(2) あるIDをピックアップしてそのIDのfollower/following (f/f)を取得。その中からN IDピックアップしてf/fを取得、というのをi回繰り返す。

    • 取得数がN^i回と指数関数的に増加するので、広く浅く(それでも100人を2回繰り返すだけで10000回…)するか?
    • f/fの少ないIDの取得は難しそう。f/f=0のユーザは取得できない

(2)がどれくらい網羅的にできるのかな、って気がするけど、(1)と(2)をすべてしたところで、IDページにだけ書いていてf/f=0のIDは取得できない…けどまぁそれはほとんど困難なのでいいとしよう。

(2)については広く浅く掘っていくのと、狭く深く掘っていくのとどっちがたくさん拾えるのかなぁ…。

[]ぼんやり ぼんやり - 雲雀は高く空を舞い を含むブックマーク はてなブックマーク - ぼんやり - 雲雀は高く空を舞い ぼんやり - 雲雀は高く空を舞い のブックマークコメント

APIのアクセス制限ってどの位なんだろう。

ドキュメントには、過度なアクセスすると通信遮断するよ、とのことだけど。よくわからん。

twitterなんかは情報取得系APIは一時間に70回までとかで、書き込みについては制限ないみたい、とのことなんだけど、情報取得のほうがいやなのかー。

……twitter基準で考えると今はだいぶ大した回数アクセスしてるので、怒られそうだなぁ。

トラックバック - http://chick.g.hatena.ne.jp/allegro/20090113
テクノラティプロフィール