ブログ検索 http://www.moonmile.net/blog/?p=116 の続き。
perlのspideringを使ってブログ個別にクローリング、ってのを考えてみたものの、クローリング自体が重たい処理になってしまうので、ちょっと考える。
最近/当初も?ブログを登録すると当然のようにpingサーバーに通知するようになっている。大手のところに登録すると、検索ができたり、ランキングしたり、なんかカテゴリにまとめてくれたりする。普通はブログのアクセスアップに使われるのだが、これを利用する。
# 本当は ping を受け付けてもいいのだが、大手でもないし実験だし。なので大手のものを利用する。
日本ブログ村
http://www.blogmura.com/
Googleブログ検索 BETA
http://blogsearch.google.co.jp/
ブログ更新通知pingの送り先リスト(参考に)
http://vivablog.net/seo/kiji14/
この中から、
1.直近10~30分ぐらいの間隔で、新着エントリのURLを取得する。
2.指定URLへエントリを取りに行く。
3.データベースに貯め込み、検索用にごにょごにょする。
ってな感じでOK。
対象は日本語で書かれたブログがいいので、数は相当少なくなるはず。
検索に引っかからないブログやpingしていないブログがあるので、これは個別に取りに行く必要がある。が、当面はpingサーバーで取れるものだけで実験ができるだろう。
あと、私的には英語のプログラミング技術情報も押さえておきたいので、これは別途検討。
そう、新商品の発表なんかは昨今twitterが利用されている(のかな)らしいので、こっちも同時に拾うといいのだけど、手広くなってしまうので今のところパス。PDAでリーダーだけは作ってみたいな(iPhone風のインターフェースで)。Windows CE でも DirectX が使えるので、透過とかの真似はできるはず。できなかったらビットマップで切り替えればいいし。