CustomFeed::yhara RSSフィード

2007-05-13

[] 今日の一行のEFT 19:42  今日の一行のEFT - CustomFeed::yhara を含むブックマーク はてなブックマーク -  今日の一行のEFT - CustomFeed::yhara  今日の一行のEFT - CustomFeed::yhara のブックマークコメント

# http://karetta.jp/blog/.*
author: yhara
handle_force: http://karetta\.jp/article/blog/\w+/\d+
extract: (<h3>.*?)<div id='page-footer'>
extract_capture: body

[] GeekなぺーじのEFT 19:34  GeekなぺーじのEFT - CustomFeed::yhara を含むブックマーク はてなブックマーク -  GeekなぺーじのEFT - CustomFeed::yhara  GeekなぺーじのEFT - CustomFeed::yhara のブックマークコメント

# http://www.geekpage.jp/blog/
author: yhara
handle_force: http://www\.geekpage\.jp/blog/\?id=.*
extract: <div class="main">(.*?)<a name="comment">
extract_capture: body
extract_after_hook: $data->{body} =~ s!<div style="text-align:right; padding-right:50px;">.*?</div>!!sg; $data->{body} =~ s!<hr>\r?\n<BR>\r?\n<table border="0" cellpadding="0" width="90%">.*?</table>!!sg

Rubyの //m が Perlでは s///s であることに気づくのに苦労したorz

[] doblogEFT 17:31  doblogのEFT - CustomFeed::yhara を含むブックマーク はてなブックマーク -  doblogのEFT - CustomFeed::yhara  doblogのEFT - CustomFeed::yhara のブックマークコメント

2chplagger中級スレッドより( http://pc11.2ch.net/test/read.cgi/software/1148515419/441-442n )

441 :名無しさん@お腹いっぱい。:2007/02/14(水) 20:15:37 ID:yjNdbPjQ0
doblogのblogから画像入り全文を取得するにはどうすればいいんだろう。 
1記事1ページになってないからEFTで上手く取得できないんだけど。 


442 :名無しさん@お腹いっぱい。:2007/02/15(木) 12:54:43 ID:RQFMjCTD0
>441 

sub handle_force { 
my ($self, $args) = @_; 
$args->{entry}->link =~ qr{^http://www\.doblog\.com/weblog/}; 
} 

sub extract { 
my ($self, $args) = @_; 

my $name = URI->new($args->{entry}->link)->fragment; 

if ($args->{content} =~ m/<a name="$name".*?>.*?<div class="blog-scene">(.+?)<div class="blog-entry-footer">/s) { 
return "<div>$1</div>"; 
} 
return; 
} 

EFTにこれをwww_doblog_com.plとかでコピー。1箇所でしか試してないからダメかもしれない。 

うまく動いてる模様。

2007-04-08

[] Shiro 01:25  [http://practical-scheme.net/wiliki/wiliki.cgi?Shiro:title] - CustomFeed::yhara を含むブックマーク はてなブックマーク -  [http://practical-scheme.net/wiliki/wiliki.cgi?Shiro:title] - CustomFeed::yhara  [http://practical-scheme.net/wiliki/wiliki.cgi?Shiro:title] - CustomFeed::yhara のブックマークコメント

Shiroさんの日記CC

(5/13修正 日付とタイトルの取り方が間違ってた)

# http://practical-scheme.net/wiliki/wiliki.cgi?Shiro
author: yhara
match: http://practical-scheme.net/wiliki/wiliki.cgi\?Shiro
extract: <strong>\((\d{4}/\d{2}/\d{2} \d{2}:\d{2}:\d{2} \w{3}) ?(.*?)\)</strong\n>((?:(?!<strong>|<hr /><div align="right">).)*)
extract_capture: date title body
extract_after_hook:  $data->{title} = $data->{date} unless $data->{title}; $data->{link} = "http://practical-scheme.net/wiliki/wiliki.cgi?Shiro";

(以下古いやつ)

# http://practical-scheme.net/wiliki/wiliki.cgi?Shiro
author: yhara
match: http://practical-scheme.net/wiliki/wiliki.cgi\?Shiro
extract: <strong>\((\d{4}/\d{2}/\d{2} \d{2}:\d{2}:\d{2} .*?)\)</strong\n>((?:(?!<strong>|<hr /><div align="right">).)*)
extract_capture: date body
extract_after_hook:  $data->{title} = $data->{date}; $data->{link} = "http://practical-scheme.net/wiliki/wiliki.cgi?Shiro";

ハワイ時間もちゃんと扱ってくれるのがPlaggerクオリティ

普通にやるとタイトルが入らないので (※なんでだろう?extract_titleに失敗している?)、手動で設定してください。

例:

plugins:
  - module: Subscription::Config
    config:
      feed:
        - url: http://practical-scheme.net/wiliki/wiliki.cgi?Shiro
          title: Shiro

  - module: CustomFeed::Config

[] うさだBlog / ls@usada’s Workshop 02:07  [http://lovelove.rabi-en-rose.net/:title] - CustomFeed::yhara を含むブックマーク はてなブックマーク -  [http://lovelove.rabi-en-rose.net/:title] - CustomFeed::yhara  [http://lovelove.rabi-en-rose.net/:title] - CustomFeed::yhara のブックマークコメント

(5/13 修正)

rev.2

# http://lovelove.rabi-en-rose.net/
author: yhara
handle_force: http://lovelove\.rabi-en-rose\.net/blog\.php\?n=\d+
extract: <a href=\./blog.php\?n=\d+>#</a> (\d{4}-\d{2}-\d{2} \d{2}:\d{2}:\d{2}) - ls<br><br><br>(.*?)<font color=#006600>// Trackback URL</font>
extract_capture: date body

以下古いやつ

rev.1

# http://lovelove.rabi-en-rose.net/
author: yhara
handle_force: http://lovelove\.rabi-en-rose\.net/blog\.php\?n=\d+
extract: <a href=\./blog.php\?n=\d+>#</a> (\d{4}-\d{2}-\d{2} \d{2}:\d{2}:\d{2})<br><br><u>Written by ls</u> .*?<br><br><br>(.*?)<font color=#006600>// Trackback URL</font>
extract_capture: date body

[] i-revo マイポータル コミュログ 02:28  i-revo マイポータル コミュログ - CustomFeed::yhara を含むブックマーク はてなブックマーク -  i-revo マイポータル コミュログ - CustomFeed::yhara  i-revo マイポータル コミュログ - CustomFeed::yhara のブックマークコメント

例: http://mp.i-revo.jp/comm.php/2105/

# http://mp.i-revo.jp/comm.php/2105/
author: yhara
handle: http://mp\.i-revo\.jp/user\.php/\w+/entry/\d+\.html
extract_xpath:
  body: //div[@id="bid_MPUserBlogEntryList"]

2007-04-07

Plaggerグループに参加しました 00:18 Plaggerグループに参加しました - CustomFeed::yhara を含むブックマーク はてなブックマーク - Plaggerグループに参加しました - CustomFeed::yhara Plaggerグループに参加しました - CustomFeed::yhara のブックマークコメント

よろしくお願いします。

とりあえずassetsを淡々と記録する予定だよ。

[] beatmania神の動画まとめサイト 00:18  beatmania神の動画まとめサイト - CustomFeed::yhara を含むブックマーク はてなブックマーク -  beatmania神の動画まとめサイト - CustomFeed::yhara  beatmania神の動画まとめサイト - CustomFeed::yhara のブックマークコメント

# http://bmmovie.hp.infoseek.co.jp/
author: yhara
match: http://bmmovie.hp.infoseek.co.jp/top.html
extract: (\d+)/(\d+)(?:<BR>\n)+((?:(?!\d+\/\d+|<!--Infoseek Analyzer).)*)
extract_capture: m d body
extract_after_hook: $data->{date} = Plagger::Date->new(year => Plagger::Date->now->year, month => $data->{m}, day => $data->{d}); $data->{title} = "$data->
{m}/$data->{d}"; $data->{link} = "http://bmmovie.hp.infoseek.co.jp/"; $data->{body} =~ s/(<BR>\n)+\z//;

改行が多いので、エントリ前後の空行は弾くようにした。

時刻の生成が汚い。がどうするもんか良くわからん。

[] bm terminus 00:20  bm terminus - CustomFeed::yhara を含むブックマーク はてなブックマーク -  bm terminus - CustomFeed::yhara  bm terminus - CustomFeed::yhara のブックマークコメント

1記事1エントリなのでEFTでできるかと思ったら、

Plagger::Plugin::Aggregator::Simple [info] Fetch http://bmt.cc/
Plagger::Cache [debug] Cache HIT: Aggregator-Simple|http://bmt.cc/
Plagger::Plugin::Aggregator::Simple [debug] 200: http://bmt.cc/
Plagger::Plugin::Aggregator::Simple [error] http://bmt.cc/
Plagger [error] http://bmt.cc/ is not aggregated by any aggregator

というエラーに。むう。RSS配信してないからか。

仕方がないので、[read more] 以下を諦めてCCを使うことに。

# bm terminus
author: yhara
match: http://bmt.cc/
extract: <h3 class="item"><a href="([^\"]*)">([^<]*)</a></h3>\s*<div class="itembody">((?:(?!<div class="iteminfo">).)*)
extract_capture: link title body
extract_encode: euc-jp
extract_after_hook: $data->{link} = "http://bmt.cc" . $data->{link};

最初、matchをhandleにしてて数十分悩んだ。orz

[] Hello, World! 00:20  Hello, World! - CustomFeed::yhara を含むブックマーク はてなブックマーク -  Hello, World! - CustomFeed::yhara  Hello, World! - CustomFeed::yhara のブックマークコメント

# Hello, world!
author: yhara
handle: http://rails.office.drecom.jp/takiuchi/archive/\d+
extract_xpath:
  body: //div[@class='entry-layer text']

これは簡単。

はてな記法意味わからん 00:20 はてな記法意味わからん - CustomFeed::yhara を含むブックマーク はてなブックマーク - はてな記法意味わからん - CustomFeed::yhara はてな記法意味わからん - CustomFeed::yhara のブックマークコメント

「*」で始まる行が見出しにならん罠