最終兵器Plagger RSSフィード

2006-11-05

[][]Tentative Name (Ver 2) Tentative Name (Ver 2) - 最終兵器Plagger を含むブックマーク

以前のものだとLDRでは具合は良かったんですが、Google Readerだとpreタグのおかげでブロック内で行が折り返さない状態だったので修正。

match: http://mew5.com/
author: Tennetiss
extract: <A name=([^>]*)></A>.*?<font color="#ffffff">(.*?)</font></td></table>[\n]<pre>(.*?)</pre>[\n]<A name=\d\d\d\d
extract_capture: link title body
extract_encode: cp932
extract_after_hook: |
  $data->{link} = 'http://mew5.com/#' . $data->{link};
  $data->{body} =~ s/[\n]/<br>/g;

pre内を引っこ抜いて、改行をbrにreplace。

あとlink取ってなかったのを修正しました。恥ず・・・

2006-10-26

[][]bk1レビュー bk1レビュー - 最終兵器Plagger を含むブックマーク

オンライン書店ビーケーワン bk1スタッフレビューEFTなんたら

http://blog.bk1.co.jp/review/

author: Tennetiss
handle: http://blog\.bk1\.co\.jp/review/
extract_xpath:
  body: //div[@class="blogbody"]

なんつうか、スクレイピングxpathも使えるようになって閾値がぐっと下がった事だし、もうわざわざ「できたどー!」とか書くのも恥ずかしい気がしてきてる。

backup目的で一応upし続けるとは思うけど。

2006-10-17

[][]Baltimore Sun Baltimore Sun - 最終兵器Plagger を含むブックマーク

ボルティモア サン紙のEFTハンドラ(handlerの呼称でコンセンサスがとれてるらしい)(追記:upgraderかもしれないソウデス)

http://www.baltimoresun.com/

英語ですすんません。

日本人には全く需要ない気がしますが。Baltimoreに住んでるもんで・・・

でも州外に出た人の話を聞くとSunの記事が恋しくなるというくらい質が高いとかなんとか。(お世辞くさいが)

ワシントンポストよりSunの方が好きだ、っていう人も結構居たなあ。なんでかは知らんが。

baltoSun.yaml

author: Tennetiss
handle: http://(\w+)\.baltimoresun\.com
extract_xpath:
  body: //div[@class="text"]


config.baltoSun.yaml(の一部)


  - module: Subscription::Config
    config:
      feed:
        - http://feeds.baltimoresun.com/baltimoresun/news/rss2.0.xml

  - module: Filter::EntryFullText
    config:
      force_upgrade: 1

  - module: Filter::ResolveRelativeLink


[][]USフロントライン USフロントライン - 最終兵器Plagger を含むブックマーク

U.S. FrontlineのEFTなんたら。

http://www.usfl.com/

結構手強かった・・・

xpathでハマりがあったんで一応メモっておきます。

下にもあるとおり、

/html/body//td[2]/table//td[2]/table[2]//td

と処理してるんだけど、これは展開した形だと

/html/body/table/tbody/tr[2]/td/center/table[3]/tbody/tr/td[2]/table/tbody/tr/td[2]/table[2]/tbody/tr/td

なのだけど、これだとエラーが出る。明確な理由まではわからなかった。自分の中では「とにかく長いのはダメ」ということにしておいた・・・。短すぎてもダメだった。

after_hookでやってるのは、tdだけ浮いてしまうのでそれの削除と、一部の記事には最後に他の記事の目次がなぜか入ってるので、それをカット

最後にfontタグを閉め。(cococみたいにエントリを全部繋げて見せるリーダの場合、font閉め忘れてるエントリが一つあると悲惨な事になる)

あともう一つ、configの方。

user_agentを詐称しないとダメだった。html自体とってこれない(usfl側ではじいてる)。

なので、何か適当ブラウザで読みに行ってることにすると吉。(下例ではIE6)

usfl.yaml

author: Tennetiss
handle: http://www\.usfl\.com
extract_xpath:
  body: /html/body//td[2]/table//td[2]/table[2]//td
extract_after_hook: |
  $data->{body} =~ s!<td.*?>!!sg;
  $data->{body} =~ s!</td>!!sg;

  if( $data->{body} =~ m!(.*?)_/.*?!s ){
    $data->{body} = $1 . '</font>';
  }


config.usfl.yaml(の一部) part1


global:
  user_agent:
    agent: Mozilla/4.0 (compatible; MSIE 6.0; Windows XP)

part2


  - module: Subscription::Config
    config:
      feed:
        - http://www.usfl.com/rss/usfl.rdf

  - module: Filter::EntryFullText


[]スクレイピングがなんかうまく行かなかったとき スクレイピングがなんかうまく行かなかったとき - 最終兵器Plagger を含むブックマーク

EFTの場合

「pしてoすりゃ済むことじゃん!」とか

「v押すだけだろ!」とか

思うことにしてる。(LDRユーザー)

CustomFeedの場合

フォルダ内のブクマ一気に開けばいいじゃん」

アンテナ使おうぜ」

otsuneotsune2006/10/26 10:35handle:をhandle_force:に変えた物をcommitしていいですか?

akaihoakaiho2006/10/26 18:46はい、どれでもcommitしていただいて構いませんよ!

akaihoakaiho2006/10/26 18:50改変もご自由にどうぞ。原型留めないほどの魔改造とか。authorも変えたりとか。

2006-10-08

[][]まんたんウェブ まんたんウェブ - 最終兵器Plagger を含むブックマーク

毎日新聞 まんたんウェブEFT

http://mantanweb.mainichi.co.jp/web/

mantanweb.yaml

author: Tennetiss
handle: http://mantanweb\.mainichi\.co\.jp
extract: (<div class="entry-body">.*?)<div class="adsens468x60">
extract_capture: body

最初はxpathでやってみたんだけど、前後に明確に特徴のあるタグがある場合はregexの方が書きやすいように思う。慣れだろうけど。

もし各エントリの最後の方に良く付いてるAmazonアフィも消したいのなら、もう少し前で切ってくださいませ。

config.mantanweb.yamlの一部


  - module: Subscription::Config
    config:
      feed:
        - http://mantanweb.mainichi.co.jp/web/index.xml

  - module: Filter::EntryFullText
    config:
      store_html_on_failure: 1
      force_upgrade: 1
  - module: Filter::ResolveRelativeLink 

  - module: Filter::Rule
    rule:
      module: Deduped

force_upgradeしないと、一部のエントリだけalready contains bodyになってしまうので注意。(EFTyaml内で解決する方法もあったような気がするんだけど)

[][]4Gamer.net 4Gamer.net - 最終兵器Plagger を含むブックマーク

もう既に誰かやってたらごめんなさい。

4Gamer.netEFT

http://www.4gamer.net/

author: Tennetiss
handle: http://www\.4gamer\.net/
extract: (<table width="100%" .*?>.*?)<!-- tDialy:END -->
extract_capture: body


  - module: Subscription::Config
    config:
      feed:
        - http://www.4gamer.net/rss/rss.shtml

  - module: Filter::EntryFullText
    config:
      store_html_on_failure: 0
  - module: Filter::ResolveRelativeLink 
  - module: Filter::Rule
    rule:
      module: Deduped

2006-09-12

ubuntu引っ越しubuntuに引っ越した - 最終兵器Plagger を含むブックマーク

ちょいと思うところあって、鯖のOS入れ直してた。plagger含む。

何ヶ月かplagger使ってて、色々と、主にOSの設定で「あーしたほうが良かったか」とか「こーすべきだったか」とちょこちょこ動作環境で改善したい点が増えすぎてしまったんで、ごちゃごちゃいじくりだすよりOSごと入れ直すかと思い立った。

変わらずFreeBSDで行こうと最初は考えてたのだけど、わりとタイムリーubuntuで走らせた方のメモを見かけたので、それを参考にubuntuに。ボクの周りでは最近ubuntu ubuntu言う輩が増えてきてて、気になってたので丁度ヨカッタ。感謝感謝

メモ/ubuntu の編集 - nakax memo


一番はじめにplaggerをつっこんでみた環境Debianで、そのときの苦労は結構なもんだった。 今回はこういう道筋があるとはいえ、やっぱり当時のアレコレが思い出として蘇ってきて、「なにかしらひっかかりあるんだろなあ」と若干尻込みしつつ、インストール開始した。

で、結果をいうと、特に問題なし。

まずubuntuセットアップが拍子抜けするほど簡単。SuSE使ったときも相当だなあと思ったモンだけど、それ以上に楽かも。

ubunturootアカウントを作らない、というのが長年linux/BSDを触ってきた人からすると違和感感じまくりなのだけど、これはこれで。ただ、やっぱりマレに「権限がありません」とかなんとか言われることがある。(ユーザーアカウントからcpan shell使ってると言われた)

なので、結局のところsudo su - rootにはお世話になるという罠が。

ともかく、上記のサイトにあるメモVM Ware関連のところを除けば普通にいける。

ちょっと捕捉しておくと、

install Plagger

の前に

install WebService::Bloglines

をしておくのは必須とは言わないまでも、しておいた方がいい。「もうBloglines使ってないからいいか」と最初スキップしたのだけど、そうするとその後のinstall Plaggerがへそ曲げて入ってくれない。forceしても。

WebService::Bloglinesモジュールに付随して色々あるということでひとつ。

あと最後にsvnでチェックアウトしておくと吉。

BSDではportでやってた部分をubuntuではaptitudeでやって、あとは同じ。当たり前だけど、それまで使ってた自分の書いたモジュールもそのまま動いております。