|
|
||
# http://karetta.jp/blog/.* author: yhara handle_force: http://karetta\.jp/article/blog/\w+/\d+ extract: (<h3>.*?)<div id='page-footer'> extract_capture: body
# http://www.geekpage.jp/blog/
author: yhara
handle_force: http://www\.geekpage\.jp/blog/\?id=.*
extract: <div class="main">(.*?)<a name="comment">
extract_capture: body
extract_after_hook: $data->{body} =~ s!<div style="text-align:right; padding-right:50px;">.*?</div>!!sg; $data->{body} =~ s!<hr>\r?\n<BR>\r?\n<table border="0" cellpadding="0" width="90%">.*?</table>!!sg
2ch のplagger中級スレッドより( http://pc11.2ch.net/test/read.cgi/software/1148515419/441-442n )
441 :名無しさん@お腹いっぱい。:2007/02/14(水) 20:15:37 ID:yjNdbPjQ0
doblogのblogから画像入り全文を取得するにはどうすればいいんだろう。
1記事1ページになってないからEFTで上手く取得できないんだけど。
442 :名無しさん@お腹いっぱい。:2007/02/15(木) 12:54:43 ID:RQFMjCTD0
>441
sub handle_force {
my ($self, $args) = @_;
$args->{entry}->link =~ qr{^http://www\.doblog\.com/weblog/};
}
sub extract {
my ($self, $args) = @_;
my $name = URI->new($args->{entry}->link)->fragment;
if ($args->{content} =~ m/<a name="$name".*?>.*?<div class="blog-scene">(.+?)<div class="blog-entry-footer">/s) {
return "<div>$1</div>";
}
return;
}
EFTにこれをwww_doblog_com.plとかでコピー。1箇所でしか試してないからダメかもしれない。
うまく動いてる模様。