2007-09-19
■ [それPla] 画像系tumblrの画像を収集したい

APIを叩くソリューションを。
Reblogではなく単純に収集がしたい人向け。
config.yaml
global: assets_path: /path/to/assets timezone: Asia/Tokyo log: level: info cache: base: /path/to/cache plugins: - module: Subscription::Config config: feed: - url: http://moepic17.tumblr.com/rss - url: http://moepic18.tumblr.com/rss - url: http://school-mizugi.tumblr.com/rss - url: http://kuro-tights.tumblr.com/rss - module: Filter::FindEnclosures - module: Filter::FetchEnclosure config: dir: /path/to/enclosure fake_referer: 1
画像系tumblrのRSSをSubscription::Configで取得し,Filter::FindEnclosuresとFilter::FetchEnclosureでエントリの画像をローカルに保存。
このconfig.yamlでPlaggerを実行すると,/path/to/enclosure以下にフィードごとにフォルダが作成され,その中に画像が保存される。フォルダ名はフィードのID(URL?)のMD5値になっているから,フォルダの中身を見て「このフォルダはこのフィードに対応している」ってのは手作業で確認せにゃならんけど。
あとはこれを定期的に実行すればOK。ただしtumblrのフィードは20件までしかエントリが表示されないから,エントリが流れて画像に抜けが出るのが嫌という人は実行時間に注意。例えば,萌え連18さんは夜から深夜の投稿が多いから,その時間帯に1時間おきに取得するとか。
コメントを書く
トラックバック - http://plagger.g.hatena.ne.jp/SweetPotato/20070919