|
|
||
headlines.yahoo.co.jp のニュース記事をうまくとってこようといじってみたのですが,なにせ plagger 初心者なので,合ってるのか,間違ってるのかさえ判断できないので晒してみます.
handle: http://headlines\.yahoo\.co\.jp/ extract: <h1 class="yjXL">(.*?)</h1>?.*?<.*? class="yjMt.*?">(.*?)</td>?.*?<p class="yjSt fcg">最終更新?.*?(\d{1,2}月\d{1,2\}日\d{1,2}時\d{1,2}分)</p> extract_capture: title body date extract_after_hook: | if ($data->{body} =~ /yimg\.jp/) { $data->{body} .= '<div style="clear: both;"> </div>'; } if ($args->{entry}->link =~ m!/hl\?a=(\d{4})\d{2}\d{2}-!) { $data->{date} = "$1/" . $data->{date}; } $data->{body} =~ s!<div id="artFold">!!; $data->{body} =~ s!<\!--- __entry_body_start__ --->!!; $data->{body} =~ s!<\!--- __entry_body_end__ --->!!; $data->{body} =~ s!</div>!!; extract_date_format: - %Y/%m月%d日%H時%M分 custom_feed_handle: (http://nsearch\.yahoo\.co\.jp/bin/search\?p=|http://headlines\.yahoo\.co\.jp/hl\?c=) custom_feed_follow_link: http://headlines\.yahoo\.co\.jp/hl\?a=(?:(?!view-).)+$
こんな感じでいいんだろうか…
Yahoo! ニュースでは取ってこれない共同通信系ということで… 東京新聞の場合はこうなるのかな?
handle: http://www\.tokyo-np\.co\.jp/flash/ extract: <TITLE>(.*?)</TITLE>?.*?<div class="news">(.*?)<div class="date">((.*?))</div> extract_capture: title body date extract_date_format: %Y年%m月%d日 %H時%M分 extract_after_hook: | $data->{title} =~ s! \[CHUNICHI WEB PRESS\]!!g; $data->{body} =~ s!<h3>!!g; $data->{body} =~ s!</h3>!!g;
asahi.com も Google ニュースからとってくることになるはずで,asahi_com.yaml はデフォルトのまま,「サイエンス」の場合がちょっと異なるパターンになるのか…
handle: http://www\.asahi\.com/*/update/ extract: <!-- End of Headline --><div class="day">(.*?)</div>(.*?)<!-- google_ad_section_end extract_capture: date body extract_date_format: %Y年%m月%d日%H時%M分
handle: http://www\.asahi\.com/science/ extract: <!-- End of Headline --><p class="day">(.*?)</p>?.*?<div class="wrapkiji">(.*?)<!-- End of Kiji --> extract_capture: date body extract_date_format: %Y年%m月%d日