雲雀は高く空を舞い このページをアンテナに追加 RSSフィード

「ひよこは高く空を舞い」について

2009-01-15

[]エントリーを得るよ (4) - クローラー案 過去編 エントリーを得るよ (4) - クローラー案 過去編 - 雲雀は高く空を舞い を含むブックマーク はてなブックマーク - エントリーを得るよ (4) - クローラー案 過去編 - 雲雀は高く空を舞い エントリーを得るよ (4) - クローラー案 過去編 - 雲雀は高く空を舞い のブックマークコメント

今のところは、2008年12月までの全エントリを得ようとしていて、そのために2種類のクローラを使ってる

  • ha_dzu_kiクローラー
    • ハヅキのfriends timeline (ハヅキのfollowingページ)を新しいほうから順番に取得
    • ハヅキがfollowしているidのidポストとパブリックポスト両方取得できる
  • Publicクローラー
    • Public timelineを新しいほうから順番にかあるいは、乱数で適当に指定したページを取得

一回のリクエストで200エントリまで取得するようリクエストできるんだけど、リクエストに対してだいたい180エントリくらいが返ってくるとか、あるいはエラーが返ってきて取得できないことがあるので、これらのクローラを適当に動かして重複してエントリを取得して、最終的にそれをまとめる、というようにしてエントリの取得を行う。

今後の予定として、エントリでなくidを取得するようなクローラを作成して、それを元にidページのエントリを取得するようなクローラを作る、予定。

これで、2008年12月以前のエントリがごっそり手に入る…それでどうしよう。

トラックバック - http://chick.g.hatena.ne.jp/allegro/20090115
テクノラティプロフィール