Hatena::Groupplagger

Plugin::mikan RSSフィード

2006-11-15

[]Filter::EntryFullText 切込隊長BLOG Filter::EntryFullText 切込隊長BLOG - Plugin::mikan を含むブックマーク はてなブックマーク - Filter::EntryFullText 切込隊長BLOG - Plugin::mikan Filter::EntryFullText 切込隊長BLOG - Plugin::mikan のブックマークコメント

取得自体は簡単なのですが、RSSの古い記事が削除されないらしく、今のところ2005/03/31からのエントリ総数470件。これを毎回読み込むのはちょっと…(Ruleで何とか出来るのでしょうか)。

kirikomi.yaml regex版

handle_force: http://column.chbox.jp/home/kiri/archives/blog/main/¥w+
extract: <h3>(.*?)</h3>.*?<h2>(.*?)</h2>.*?<div class="content">(.*?)</div>
extract_capture: date title body

kirikomi.yaml Xpath版(死ぬほど時間がかかりますが、一応)

handle_force: http://column.chbox.jp/home/kiri/archives/blog/main/¥w+
extract_xpath:
  date: //h3
  title: //h2
  body: //div[@class="content"]

[]Filter::EntryFullText kajougenron(渦状言論) Filter::EntryFullText kajougenron(渦状言論) - Plugin::mikan を含むブックマーク はてなブックマーク - Filter::EntryFullText kajougenron(渦状言論) - Plugin::mikan Filter::EntryFullText kajougenron(渦状言論) - Plugin::mikan のブックマークコメント

ここは全文入りで配信してますが、改行が無くて読み辛いので。

/Plagger/assets/plugins/Filter-EntryFullText/hirokiazuma_com.yaml

handle_force: http://www¥.hirokiazuma¥.com/¥w+
extract_xpath:
  title: //h3[@class="entrytitle"]
  body: //div[@class="blogbody"]

ブログなど、構造が明確なものはXpathを使うと抽出が簡単です。

[]Filter::EntryFullText phpspot開発日誌 Filter::EntryFullText phpspot開発日誌 - Plugin::mikan を含むブックマーク はてなブックマーク - Filter::EntryFullText phpspot開発日誌 - Plugin::mikan Filter::EntryFullText phpspot開発日誌 - Plugin::mikan のブックマークコメント

/Plagger/assets/plugins/Filter-EntryFullText/phpspot_org.yaml

handle: http://phpspot.org/blog/archives/¥w+
extract_xpath:
  title: /html/body//div[@class='content']/h3
  body: /html/body//div[@class='entrybody']
  date: /html/body//div[@class='content']/h2

[]Filter::EntryFullText ネタフル Filter::EntryFullText ネタフル - Plugin::mikan を含むブックマーク はてなブックマーク - Filter::EntryFullText ネタフル - Plugin::mikan Filter::EntryFullText ネタフル - Plugin::mikan のブックマークコメント

/Plagger/assets/plugins/Filter-EntryFullText/netafull.yaml

handle: http://netafull.net/¥w+
extract: <h1>(.*?)</h1>(.*?)<div id="adsense">
extract_capture: title body

[]Filter::EntryFullText GIGAZINE Filter::EntryFullText GIGAZINE - Plugin::mikan を含むブックマーク はてなブックマーク - Filter::EntryFullText GIGAZINE - Plugin::mikan Filter::EntryFullText GIGAZINE - Plugin::mikan のブックマークコメント

GIGAZINEはRSSを全文配信してくれないよね。(´・ω・`) …というわけで、RSSからEFTで全文取得します。

/Plagger/assets/plugins/Filter-EntryFullText/gigazine.yaml

handle: http://gigazine.net/index.php¥?/news/comments/¥w+
extract: <h3 class="date">(.*?)</h3>.*?<h2 class="title">(.*?)</h2>(.*?)<br clear="all" />
extract_capture: date title body

f:id:acqua_alta:20061023225002j:image

全文取得できる上に、サイトのようにごちゃごちゃしてなくて圧倒的に見やすいです。これならGIGAZINEも悪くないかも?と思えてきます。ぜひお試しを。


[]CustomFeed::Config よもぎがそまβ CustomFeed::Config よもぎがそまβ - Plugin::mikan を含むブックマーク はてなブックマーク - CustomFeed::Config よもぎがそまβ - Plugin::mikan CustomFeed::Config よもぎがそまβ - Plugin::mikan のブックマークコメント

/Plagger/assets/plugins/CustomFeed-Config/yomogi.yaml

match: http://yomogi.cubicplus.net/index-v.html
extract: <hr.*?>(.*?)<hr.*?>
extract_capture: body
extract_encode: cp932

[]CustomFeed::Config :::::HK-DMZ PLUS.COM::::: CustomFeed::Config :::::HK-DMZ PLUS.COM::::: - Plugin::mikan を含むブックマーク はてなブックマーク - CustomFeed::Config :::::HK-DMZ PLUS.COM::::: - Plugin::mikan CustomFeed::Config :::::HK-DMZ PLUS.COM::::: - Plugin::mikan のブックマークコメント

HWPSさん作のEFT用yamlを移植しただけなので意味があるのか分かりませんが、とりあえず。

/Plagger/assets/plugins/CustomFeed-Config/hk_dmz-plus_com.yaml

match: http://hk.dmz-plus.com/
extract: <p class=date¥d?>(.*?)</p>(.*?)<hr size=3>
extract_capture: title body
extract_encode: cp932


[]CustomFeed::Config イニシャルG CustomFeed::Config イニシャルG - Plugin::mikan を含むブックマーク はてなブックマーク - CustomFeed::Config イニシャルG - Plugin::mikan CustomFeed::Config イニシャルG - Plugin::mikan のブックマークコメント

毎日更新&TOPにログを残さないサイトなので、1日1回は実行しないと意味がないです…。EFTで過去ログから取得した方が良いかもですが。

/Plagger/assets/plugins/CustomFeed-Config/initial-g.yaml

match: http://initial-g.jp/
extract: <font color="#FFFFFF" size="2"><br />(.*?)<br />.*?<td height="90" bgcolor="#FFFFFF">(<div align="center">.*?</div>)
extract_capture: title body
extract_encode: cp932

[]CustomFeed::Config 朝目新聞 CustomFeed::Config 朝目新聞 - Plugin::mikan を含むブックマーク はてなブックマーク - CustomFeed::Config 朝目新聞 - Plugin::mikan CustomFeed::Config 朝目新聞 - Plugin::mikan のブックマークコメント

/Plagger/assets/plugins/CustomFeed-Config/asame.yaml

match: http://www.ne.jp/asahi/asame/shinbun/
extract: <TD width="100%" vAlign=top bordercolor="#000000".*?>(.*?)<p align="center">&nbsp;</p></td>
extract_capture: body
extract_encode: cp932

[]CustomFeed::Config ヤマカム CustomFeed::Config ヤマカム - Plugin::mikan を含むブックマーク はてなブックマーク - CustomFeed::Config ヤマカム - Plugin::mikan CustomFeed::Config ヤマカム - Plugin::mikan のブックマークコメント

/Plagger/assets/plugins/CustomFeed-Config/yamakam.yaml

match: http://www1.odn.ne.jp/cjt24200/yamada/
extract: <TABLE cellpadding="10" cellspacing="5" width="65%">(.*?)<a href="http://px
extract_capture: body
extract_encode: cp932

[]CustomFeed::Config 駿河電力/スク水.jp CustomFeed::Config 駿河電力/スク水.jp - Plugin::mikan を含むブックマーク はてなブックマーク - CustomFeed::Config 駿河電力/スク水.jp - Plugin::mikan CustomFeed::Config 駿河電力/スク水.jp - Plugin::mikan のブックマークコメント

/Plagger/assets/plugins/CustomFeed-Config/sukumizu.yaml

match: http://www.sukumizu.jp/
extract: <FORM>(.*?<A name="(¥d{8})" href="(http://www.sukumizu.jp/#¥d{8})" target="_self">.*?)</FORM> 
extract_capture: body date link
extract_encode: cp932
extract_date_format: %Y%m%d
extract_after_hook: |
 $data->{title} = $data->{date};

[]CustomFeed::Config うつらうららか CustomFeed::Config うつらうららか - Plugin::mikan を含むブックマーク はてなブックマーク - CustomFeed::Config うつらうららか - Plugin::mikan CustomFeed::Config うつらうららか - Plugin::mikan のブックマークコメント

ちゅるやさん☆わはー。

/Plagger/assets/plugins/CustomFeed-Config/UtsuraUraraka.yaml

match: http://u-u.2-d.jp/
extract: (¥d{6}&nbsp;.*?log.htm">)
extract_capture: body
extract_encode: cp932
extract_after_hook: $data->{body} =~ s/ width="¥d{3}"//g;

[]CustomFeed::Config AppleStyle CustomFeed::Config AppleStyle - Plugin::mikan を含むブックマーク はてなブックマーク - CustomFeed::Config AppleStyle - Plugin::mikan CustomFeed::Config AppleStyle - Plugin::mikan のブックマークコメント

Macなブログ専用ニュースサイト

/Plagger/assets/plugins/CustomFeed-Config/AppleStyle.yaml

match: http://www.apple-style.com/
extract: <td width="372" align="left"><a href="(.*?)" target="_blank">(.*?)</a></td>.*?<span class="style49">(.*?)</span>
extract_capture: link title body
extract_encode: cp932

[]CustomFeed::Config 楽画喜堂 CustomFeed::Config 楽画喜堂 - Plugin::mikan を含むブックマーク はてなブックマーク - CustomFeed::Config 楽画喜堂 - Plugin::mikan CustomFeed::Config 楽画喜堂 - Plugin::mikan のブックマークコメント

/Plagger/assets/plugins/CustomFeed-Config/rakugakidou.yaml

match: http://www.rakugakidou.net/
extract: <table cellpadding="0" cellspacing="0" width="530" style="font-size:10pt; color:white; margin:4px;">(.*?<a name="(.*?)">(.*?)</a>.*?)<h4>
extract_capture: body link title
extract_encode: cp932
extract_after_hook: |
 $data->{link} = 'http://www.rakugakidou.net/#' . $data->{link} ; 
 $data->{body} =~ s/h1|h2|h3|h6/p/g; 
 $data->{body} =~ s/color="white"//g;

extract_after_hookでbody中のhタグをpタグに置換しているのがポイント


[]CustomFeed::Config マク CustomFeed::Config マク - Plugin::mikan を含むブックマーク はてなブックマーク - CustomFeed::Config マク - Plugin::mikan CustomFeed::Config マク - Plugin::mikan のブックマークコメント

あひーっ!で有名なMac情報サイト

/Plagger/assets/plugins/CustomFeed-Config/maku.yaml

match: http://maku.or.tv/
extract: <FONT SIZE="3" CLASS="maku"><FONT SIZE="4" CLASS="maku_title">(.*?)</FONT><BR>(.*?)<FONT SIZE="3" CLASS="maku"><A NAME="pulldown"></A></FONT> 
extract_capture: title body
extract_encode: cp932

[]CustomFeed::Config 放蕩オペラハウス CustomFeed::Config 放蕩オペラハウス - Plugin::mikan を含むブックマーク はてなブックマーク - CustomFeed::Config 放蕩オペラハウス - Plugin::mikan CustomFeed::Config 放蕩オペラハウス - Plugin::mikan のブックマークコメント

/Plagger/assets/plugins/CustomFeed-Config/h-opera.yaml

match: http://www.h-opera.com/
extract: <TABLE width="680" cellspacing="2" cellpadding="1">.*?<TD colspan="2" align="left" bgcolor="#333333"><B>(.*?)</B></TD>(.*?)<FORM.*?>
extract_capture: title body
extract_encode: cp932
extract_after_hook: $data->{body} =~ s/bgcolor=”#333333”//g;


[]CustomFeed::Config かーずSP CustomFeed::Config かーずSP - Plugin::mikan を含むブックマーク はてなブックマーク - CustomFeed::Config かーずSP - Plugin::mikan CustomFeed::Config かーずSP - Plugin::mikan のブックマークコメント

/Plagger/assets/plugins/CustomFeed-Config/karzu.yaml

match: http://hw001.gate01.com/karzu/
extract: <BR><HR><U><FONT SIZE=5><A NAME="(..)"><A HREF="#.."target="_self">(.*?)</A></A></FONT></U><HR><br>(.*?)<!--.*?-->
extract_capture: link title body
extract_encode: cp932
extract_after_hook: $data->{link} = 'http://hw001.gate01.com/karzu/#' . $data->{link}


[]CustomFeed::Config RinRin王国 CustomFeed::Config RinRin王国 - Plugin::mikan を含むブックマーク はてなブックマーク - CustomFeed::Config RinRin王国 - Plugin::mikan CustomFeed::Config RinRin王国 - Plugin::mikan のブックマークコメント

/Plagger/assets/plugins/CustomFeed-Config/rinou.yaml

match: http://www.pluto.dti.ne.jp/rinou/
extract: <div class="head"><a name="(.*?)" href=".*?" style="color:#ffff00">(.*?)</a></div>(.*?)<div class="head">menu</div>
extract_capture: link title body
extract_encode: cp932
extract_after_hook: $data->{link} = 'http://www.pluto.dti.ne.jp/rinou/#' . $data->{link}