雲雀は高く空を舞い このページをアンテナに追加 RSSフィード

「ひよこは高く空を舞い」について

2009-10-18

[]今動いてるクローラ 今動いてるクローラ - 雲雀は高く空を舞い を含むブックマーク はてなブックマーク - 今動いてるクローラ - 雲雀は高く空を舞い 今動いてるクローラ - 雲雀は高く空を舞い のブックマークコメント

そう言えば、という事でメモ

  • a) public-timeline new-post crawler
    • 20分ごとに3page分取得
  • b) existed id-post crawler x2
    • dbに存在するuseridを適当に一つ取得して、そのidのidページとpostをそれぞれ最大100ページまで200countずつ取得 (20k post以上してる人はそうは多くないんじゃないかな…)
  • c) new id-post crawler x2
    • dbに新しく登録されたuseridについて、idページとpostを取得
  • d) following-timeline new-post crawler
    • 20分ごとに適当なuserのfollowing pageを200件1page取得。

これらをデータベースに登録。登録時にidが既存か新規かチェックして新規の場合はクローラーCにわたす。



ちなみに以前は

  • public new-post crawler
  • following-timeline new-post crawler
  • newly id-post crawler
  • hazuki following-timeline jumper
    • hazukiのtimelineのp(乱数)ページ〜p+10ページを取得
  • public-timeline jumper
    • public-timelineのp(乱数)ページ~p+50ページを取得

なんて事をしてました.ランダムにとるより、地道に1ページずつとっとけば良かったとか思わないでもないです

twitter

いまのところfollowingtimelineだけ。favotterから適当にid引っ張ってきてクロールするとかなんかこう、クラスタを越えたクロールしたいんだけど未定.

[]Ubuntu 9.04にpythonいろいろインストール Ubuntu 9.04にpythonいろいろインストール - 雲雀は高く空を舞い を含むブックマーク はてなブックマーク - Ubuntu 9.04にpythonいろいろインストール - 雲雀は高く空を舞い Ubuntu 9.04にpythonいろいろインストール - 雲雀は高く空を舞い のブックマークコメント

apt-getつかう。aptにしろportにしろパッケージシステム便利すぎる。windowsではここら辺ってどうするんだろう?

apt-get update #リストのアップデーと
apt-get upgrade # リストをもとにインストールされた項目のアップデート
apt-get install python-twitter
apt-get install python-numpy
apt-get install python-scipy
apt-get install python-matplotlib
apt-get install python-lxml

とかなんとか。

python 2.5.xが入っててそれを2.6にアップデートしたかったんだけど、アップデートじゃなくてインストールじゃなくちゃだめかな?と言う事で保留中.それぞれで入ったバージョンが何かは確認してない。

トラックバック - http://chick.g.hatena.ne.jp/allegro/20091018
テクノラティプロフィール