motociclettaの日記

2007-03-18

EFT - headlines.yahoo.co.jp 15:20

headlines.yahoo.co.jpニュース記事をうまくとってこようといじってみたのですが,なにせ plagger 初心者なので,合ってるのか,間違ってるのかさえ判断できないので晒してみます.

headlines_yahoo_jp.yaml

handle: http://headlines\.yahoo\.co\.jp/
extract: <h1 class="yjXL">(.*?)</h1>?.*?<.*? class="yjMt.*?">(.*?)</td>?.*?<p class="yjSt fcg">最終更新?.*?(\d{1,2}月\d{1,2\}日\d{1,2}時\d{1,2}分)</p>
extract_capture: title body date
extract_after_hook: |
  if ($data->{body} =~ /yimg\.jp/) {
    $data->{body} .= '<div style="clear: both;">&#160;</div>';
  }
  if ($args->{entry}->link =~ m!/hl\?a=(\d{4})\d{2}\d{2}-!) {
    $data->{date} = "$1/" . $data->{date};
  }
  $data->{body} =~ s!<div id="artFold">!!;
  $data->{body} =~ s!<\!--- __entry_body_start__ --->!!;
  $data->{body} =~ s!<\!--- __entry_body_end__ --->!!;
  $data->{body} =~ s!</div>!!;
extract_date_format:
  - %Y/%m月%d日%H時%M分
custom_feed_handle: (http://nsearch\.yahoo\.co\.jp/bin/search\?p=|http://headlines\.yahoo\.co\.jp/hl\?c=)
custom_feed_follow_link: http://headlines\.yahoo\.co\.jp/hl\?a=(?:(?!view-).)+$

こんな感じでいいんだろうか…

EFT - tokyo-np.co.jp 16:05

Yahoo! ニュースでは取ってこれない共同通信系ということで… 東京新聞の場合はこうなるのかな?

tokyo_np.yaml

handle: http://www\.tokyo-np\.co\.jp/flash/
extract: <TITLE>(.*?)</TITLE>?.*?<div class="news">(.*?)<div class="date">((.*?))</div>
extract_capture: title body date
extract_date_format: %Y年%m月%d日 %H時%M分
extract_after_hook: |
   $data->{title} =~ s! \[CHUNICHI WEB PRESS\]!!g;
   $data->{body} =~ s!<h3>!!g;
   $data->{body} =~ s!</h3>!!g;

EFT - asahi.com 16:34

asahi.comGoogle ニュースからとってくることになるはずで,asahi_com.yamlデフォルトのまま,「サイエンス」の場合がちょっと異なるパターンになるのか…

asahi_com.yaml

handle: http://www\.asahi\.com/*/update/
extract: <!-- End of Headline --><div class="day">(.*?)</div>(.*?)<!-- google_ad_section_end
extract_capture: date body
extract_date_format: %Y年%m月%d日%H時%M分

asahi_science.yaml

handle: http://www\.asahi\.com/science/
extract: <!-- End of Headline --><p class="day">(.*?)</p>?.*?<div class="wrapkiji">(.*?)<!-- End of Kiji -->
extract_capture: date body
extract_date_format: %Y年%m月%d日

ゲスト



トラックバック - http://plagger.g.hatena.ne.jp/motocicletta/20070318