2007-06-26
■ [assets][CustomFeed-Config] scraper for CustomFeed::Config 一迅社インフォメーション

先日,一迅社公式サイトがリニューアルされて,各雑誌のインフォメーションページが設置された。そのページを切り出すscraper。
assets/plugins/CustomFeed-Config/ichijinsha_information.yaml
日本語を使用しているのでUTF-8(BOMなし)で保存すること。
また,extract_after_hookにおけるリンクの絶対化は,Filter::AbsolutizeEntryLinkの使用で置き換えられる。
# author: SweetPotato match: http://www\.ichijinsha\.co\.jp/[-\w]+/information/(index\.html?)?$ extract_xpath: link: //div[@id='main']/div[last()]/a/@name date: //div[@id='main']/div[last()]/div[@class='date']/text() title: //div[@id='main']/div[last()]/div[@class='detail']/h4/text() body: //div[@id='main']/div[last()]/div[@class='detail'] extract_date_format: %Y年%m月%d日 extract_date_timezone: Asia/Tokyo extract_after_hook: | # remove title <h4> $data->{body} =~ s!<h4>.*?</h4>!!; # absolutize entry link by Filter::AbsolutizeEntryLink # $data->{link} = '#'.$data->{link}; # absolutize entry link by myself use URI; $data->{link} = URI->new_abs('#'.$data->{link}, $args->{feed}->url)->as_string;
config.ichijinsha_information.yaml
コメントアウトの誤りを修正。
plugins: - module: Subscription::Config config: feed: - url: http://www.ichijinsha.co.jp/zerosum/information/ - url: http://www.ichijinsha.co.jp/rex/information/ - url: http://www.ichijinsha.co.jp/palette/information/ - url: http://www.ichijinsha.co.jp/yurihime/information/ - url: http://www.ichijinsha.co.jp/zerosum/information/ - url: http://www.ichijinsha.co.jp/charamel/information/ - module: CustomFeed::Config # - module: Filter::AbsolutizeEntryLink - module: Filter::ResolveRelativeLink
コメント
トラックバック - http://plagger.g.hatena.ne.jp/SweetPotato/20070626