SweetPotato::Plagger このページをアンテナに追加 RSSフィード

2007-06-26

[][] scraper for CustomFeed::Config 一迅社インフォメーション 18:48  scraper for CustomFeed::Config 一迅社インフォメーション - SweetPotato::Plagger を含むブックマーク はてなブックマーク -  scraper for CustomFeed::Config 一迅社インフォメーション - SweetPotato::Plagger  scraper for CustomFeed::Config 一迅社インフォメーション - SweetPotato::Plagger のブックマークコメント

先日,一迅社公式サイトがリニューアルされて,各雑誌のインフォメーションページが設置された。そのページを切り出すscraper。

assets/plugins/CustomFeed-Config/ichijinsha_information.yaml

日本語を使用しているのでUTF-8(BOMなし)で保存すること。

また,extract_after_hookにおけるリンクの絶対化は,Filter::AbsolutizeEntryLinkの使用で置き換えられる。

# author: SweetPotato
match: http://www\.ichijinsha\.co\.jp/[-\w]+/information/(index\.html?)?$
extract_xpath:
  link:  //div[@id='main']/div[last()]/a/@name
  date:  //div[@id='main']/div[last()]/div[@class='date']/text()
  title: //div[@id='main']/div[last()]/div[@class='detail']/h4/text()
  body:  //div[@id='main']/div[last()]/div[@class='detail']
extract_date_format: %Y年%m月%d日
extract_date_timezone: Asia/Tokyo
extract_after_hook: |
  # remove title <h4>
  $data->{body} =~ s!<h4>.*?</h4>!!;
  # absolutize entry link by Filter::AbsolutizeEntryLink
  # $data->{link} = '#'.$data->{link};
  # absolutize entry link by myself
  use URI;
  $data->{link} = URI->new_abs('#'.$data->{link}, $args->{feed}->url)->as_string;

config.ichijinsha_information.yaml

コメントアウトの誤りを修正。

plugins:
  - module: Subscription::Config
    config:
      feed:
        - url: http://www.ichijinsha.co.jp/zerosum/information/
        - url: http://www.ichijinsha.co.jp/rex/information/
        - url: http://www.ichijinsha.co.jp/palette/information/
        - url: http://www.ichijinsha.co.jp/yurihime/information/
        - url: http://www.ichijinsha.co.jp/zerosum/information/
        - url: http://www.ichijinsha.co.jp/charamel/information/

  - module: CustomFeed::Config

# - module: Filter::AbsolutizeEntryLink
  - module: Filter::ResolveRelativeLink
トラックバック - http://plagger.g.hatena.ne.jp/SweetPotato/20070626