motociclettaの日記

2007-03-18

EFT - headlines.yahoo.co.jp 15:20

headlines.yahoo.co.jpニュース記事をうまくとってこようといじってみたのですが,なにせ plagger 初心者なので,合ってるのか,間違ってるのかさえ判断できないので晒してみます.

headlines_yahoo_jp.yaml

handle: http://headlines\.yahoo\.co\.jp/
extract: <h1 class="yjXL">(.*?)</h1>?.*?<.*? class="yjMt.*?">(.*?)</td>?.*?<p class="yjSt fcg">最終更新?.*?(\d{1,2}月\d{1,2\}日\d{1,2}時\d{1,2}分)</p>
extract_capture: title body date
extract_after_hook: |
  if ($data->{body} =~ /yimg\.jp/) {
    $data->{body} .= '<div style="clear: both;">&#160;</div>';
  }
  if ($args->{entry}->link =~ m!/hl\?a=(\d{4})\d{2}\d{2}-!) {
    $data->{date} = "$1/" . $data->{date};
  }
  $data->{body} =~ s!<div id="artFold">!!;
  $data->{body} =~ s!<\!--- __entry_body_start__ --->!!;
  $data->{body} =~ s!<\!--- __entry_body_end__ --->!!;
  $data->{body} =~ s!</div>!!;
extract_date_format:
  - %Y/%m月%d日%H時%M分
custom_feed_handle: (http://nsearch\.yahoo\.co\.jp/bin/search\?p=|http://headlines\.yahoo\.co\.jp/hl\?c=)
custom_feed_follow_link: http://headlines\.yahoo\.co\.jp/hl\?a=(?:(?!view-).)+$

こんな感じでいいんだろうか…