雲雀は高く空を舞い このページをアンテナに追加 RSSフィード

「ひよこは高く空を舞い」について

2009-01-26

2009-01-26 - 雲雀は高く空を舞い を含むブックマーク 2009-01-26 - 雲雀は高く空を舞い のブックマークコメント

  • superstar
  • fortissimo

短期

  • pub hourly
  • hzk hourly
  • hzk hourly

中期

  • hzk tank weekly
  • hzk tank monthly x2

長期

  • hzk hopping
  • pub hopping ver.2 x3
  • pub hopping ver.2 x3
  • hzk tank x2
  • pub tank x2
  • allegro tank
  • id post x4
  • id post x3

ファイルのやり取りメモ ファイルのやり取りメモ - 雲雀は高く空を舞い を含むブックマーク はてなブックマーク - ファイルのやり取りメモ - 雲雀は高く空を舞い ファイルのやり取りメモ - 雲雀は高く空を舞い のブックマークコメント

メールで送信

DrobBoxつかう

ftpで送信

LAN内ファイルサーバをWindowsのネットワークフォルダに登録してそこに送信

MauFruppyMauFruppy2018/02/06 00:48Finasteride Price Best And Quickest Viagra Online Actimoxil No Prescription Needed In Internet <a href=http://ciali5mg.com>cialis price</a> Zithromax Feel Worse

HilpaskHilpask2018/04/19 16:38Can You Buy Viagra Online <a href=http://tadalaffbuy.com>generic cialis</a> Xenical Over The Counter Viagra Internet Bestellen

トラックバック - http://chick.g.hatena.ne.jp/allegro/20090126

2009-01-15

[]エントリーを得るよ(3) リクエストの回数を減らした エントリーを得るよ(3) リクエストの回数を減らした - 雲雀は高く空を舞い を含むブックマーク はてなブックマーク - エントリーを得るよ(3) リクエストの回数を減らした - 雲雀は高く空を舞い エントリーを得るよ(3) リクエストの回数を減らした - 雲雀は高く空を舞い のブックマークコメント

とりあえず、リクエストごとに40秒くらい待つことにした。待ち時間を20秒から40秒でランダムに作成してその時間待ってから、次のリクエストに進む。

一回リクエストすると処理に20秒くらいかかるので、大体1分に1回アクセス。これが多いのかどうなのかはよく分からないや。

ただ、昨日の13時ころからアクセスし始めて、ここ数時間なんとなくエラーを返す回数が増えてきているような気がする、んだよね…。

[]エントリーを得るよ (4) - クローラー案 過去編 エントリーを得るよ (4) - クローラー案 過去編 - 雲雀は高く空を舞い を含むブックマーク はてなブックマーク - エントリーを得るよ (4) - クローラー案 過去編 - 雲雀は高く空を舞い エントリーを得るよ (4) - クローラー案 過去編 - 雲雀は高く空を舞い のブックマークコメント

今のところは、2008年12月までの全エントリを得ようとしていて、そのために2種類のクローラを使ってる

  • ha_dzu_kiクローラー
    • ハヅキのfriends timeline (ハヅキのfollowingページ)を新しいほうから順番に取得
    • ハヅキがfollowしているidのidポストとパブリックポスト両方取得できる
  • Publicクローラー
    • Public timelineを新しいほうから順番にかあるいは、乱数で適当に指定したページを取得

一回のリクエストで200エントリまで取得するようリクエストできるんだけど、リクエストに対してだいたい180エントリくらいが返ってくるとか、あるいはエラーが返ってきて取得できないことがあるので、これらのクローラを適当に動かして重複してエントリを取得して、最終的にそれをまとめる、というようにしてエントリの取得を行う。

今後の予定として、エントリでなくidを取得するようなクローラを作成して、それを元にidページのエントリを取得するようなクローラを作る、予定。

これで、2008年12月以前のエントリがごっそり手に入る…それでどうしよう。

[]エントリーを得るよ (4) - クローラー案 未来編 エントリーを得るよ (4) - クローラー案 未来編 - 雲雀は高く空を舞い を含むブックマーク はてなブックマーク - エントリーを得るよ (4) - クローラー案 未来編 - 雲雀は高く空を舞い エントリーを得るよ (4) - クローラー案 未来編 - 雲雀は高く空を舞い のブックマークコメント

2009年以降のエントリについても同様、かな。

ハヅキクローラをメインで働かせつつ、パブリッククローラおよびIDポストクローラをランダムモードで働かせる、とすればいいかしら。

1日あたり多くて6000エントリくらいなので、6000/200 = 30回もリクエストすれば一日分は取得できる、と思うので、こちらに関してはリクエスト回数を減らせる。よかった。

2009-01-15 - 雲雀は高く空を舞い を含むブックマーク 2009-01-15 - 雲雀は高く空を舞い のブックマークコメント

と思ったらこんなものがw

確かにここのところ考えてるのは解析について、じゃなくてクローリングについて、だった><

やりたいのはそっちじゃないんだったなぁ。大事なことを忘れるところでした。

[]アクセス制限来た>< アクセス制限来た>< - 雲雀は高く空を舞い を含むブックマーク はてなブックマーク - アクセス制限来た>< - 雲雀は高く空を舞い アクセス制限来た>< - 雲雀は高く空を舞い のブックマークコメント

403 forbiddenになってしまいました。アクセス過多だったかーと思って、とりあえず止めて、はてなにメールを出してみた。

で、ふと思ったんだけど、実はFirewallの仕業とかだったらどうしよう。

[]エントリーを得るよ (5) エントリーを得るよ (5) - 雲雀は高く空を舞い を含むブックマーク はてなブックマーク - エントリーを得るよ (5) - 雲雀は高く空を舞い エントリーを得るよ (5) - 雲雀は高く空を舞い のブックマークコメント

とりあえず、管理室とはてなにメール送りつつdaily crowler。

ハヅキのタイムラインが1日当たり6000entryくらい?ということで、40分に一度程度エントリを取得すればよいかしら。…て考えると、今までやってたリクエストはちょっと噴飯ものかな…。ライブドアみたいにちょっと前のをまとめて配布してくれれば…。

ハヅキのタイムラインだけに注目するか、それにプラスしてパブリックタイムライン+idページ探索をするかは迷いどころ。

ただ、それぞれを40分に1度動かすようにすれば、1時間に4.5回アクセス。だめかな。

さて。 さて。 - 雲雀は高く空を舞い を含むブックマーク はてなブックマーク - さて。 - 雲雀は高く空を舞い さて。 - 雲雀は高く空を舞い のブックマークコメント

どうしたものかねぇ。

トラックバック - http://chick.g.hatena.ne.jp/allegro/20090115

2009-01-14

[]matlab上からファイルをメールで送る matlab上からファイルをメールで送る - 雲雀は高く空を舞い を含むブックマーク はてなブックマーク - matlab上からファイルをメールで送る - 雲雀は高く空を舞い matlab上からファイルをメールで送る - 雲雀は高く空を舞い のブックマークコメント

割と簡単におくれる。

まずは設定。

% mail settings
setpref( 'Internet', 'SMTP_Server', 'SMTPサーバアドレス');
setpref( 'Internet', 'SMTP_Username', 'SMTPサーバのアカウント');
setpref('Internet', 'E_mail', '送信元メールアドレス');

実際のメールの送信

% fileをzipでかためる
zip(zipfile,attaches)

mailto = '送信先';
title  = 'タイトル';
body  = ['本文'];

% メールの送信
sendmail(mailto, title,body, zipfile)

複数ファイルの添付などにも対応してるみたい。

see

とここまで書いて気付いたけど、Dropbox使っちゃった方が早いんじゃないかなぁ…。

トラックバック - http://chick.g.hatena.ne.jp/allegro/20090114

2009-01-13

[]エントリーを得るよ (2) エントリーを得るよ (2) - 雲雀は高く空を舞い を含むブックマーク はてなブックマーク - エントリーを得るよ (2) - 雲雀は高く空を舞い エントリーを得るよ (2) - 雲雀は高く空を舞い のブックマークコメント

とりあえずは、id page post含む過去のエントリをごっそり取得することにした。未来のエントリはしばらくはha_dzu_ki任せでいいや。

方法だけど、API経由で指定したキーワードページのポストが取得できるみたいなので、

  1. IDデータベースの構築
  2. IDをキーにしてキーワードページのポストをN件取得。

かなぁ。

IDデータベースの構築には2つくらい方法があって

(1) パブリックタイムラインをたどって構築

    • パブリックタイムラインに出ないIDを取得できない

(2) あるIDをピックアップしてそのIDのfollower/following (f/f)を取得。その中からN IDピックアップしてf/fを取得、というのをi回繰り返す。

    • 取得数がN^i回と指数関数的に増加するので、広く浅く(それでも100人を2回繰り返すだけで10000回…)するか?
    • f/fの少ないIDの取得は難しそう。f/f=0のユーザは取得できない

(2)がどれくらい網羅的にできるのかな、って気がするけど、(1)と(2)をすべてしたところで、IDページにだけ書いていてf/f=0のIDは取得できない…けどまぁそれはほとんど困難なのでいいとしよう。

(2)については広く浅く掘っていくのと、狭く深く掘っていくのとどっちがたくさん拾えるのかなぁ…。

[]ぼんやり ぼんやり - 雲雀は高く空を舞い を含むブックマーク はてなブックマーク - ぼんやり - 雲雀は高く空を舞い ぼんやり - 雲雀は高く空を舞い のブックマークコメント

APIのアクセス制限ってどの位なんだろう。

ドキュメントには、過度なアクセスすると通信遮断するよ、とのことだけど。よくわからん。

twitterなんかは情報取得系APIは一時間に70回までとかで、書き込みについては制限ないみたい、とのことなんだけど、情報取得のほうがいやなのかー。

……twitter基準で考えると今はだいぶ大した回数アクセスしてるので、怒られそうだなぁ。

トラックバック - http://chick.g.hatena.ne.jp/allegro/20090113

2009-01-12

[]エントリデータを取得する方法 エントリデータを取得する方法 - 雲雀は高く空を舞い を含むブックマーク はてなブックマーク - エントリデータを取得する方法 - 雲雀は高く空を舞い エントリデータを取得する方法 - 雲雀は高く空を舞い のブックマークコメント

はてなハイク?のエントリを取得するにあたって、Keywordページのエントリだけならパブリックタイムラインをたどって行けば良い。今のところ20entries/page * 約70,000pages = 140万entriesくらい。

しかし、idページのエントリを取得したいとなると…一つの手段は、全ユーザをfollowするアカウントのfriends timelineを取得するという方法。

最近のエントリであれば、2007年10月ころからh:id:ha_dzu_kiがそういうアカウントとなっているのでha_dzu_kiのfriends timelineを取得すればいい。

ここでネックになるのは、ハイクの設計が、「あるユーザのエントリがfriends timelineに登場するのがそのユーザをfollowして以降」となっているので10月以前のエントリを取得できないということと、あとはha_dzu_kiがいつまで動いてくれるのか、よくわからないところかしら。

しかし、ha_dzu_kiと同じようなアカウント作るのもなんだかなーという感じと、昔のエントリが取得できないのは変わりないしなーということでちょっと保留中。どうしたものかね。

トラックバック - http://chick.g.hatena.ne.jp/allegro/20090112
テクノラティプロフィール