» home

ブログの記事本文を抽出するAPI: TSUBUAN

KOSHIANに続いてTSUBUANをつくりました。
URLを与えるとそのページに含まれる本文らしき文章をXMLで返すAPIです。

RESTで引数はurlしかありませんが、一応仕様はこちらに。
http://zuzara.dyndns.org/docs/contentextractionapi.html

サンプルレスポンス:
http://zuzara.dyndns.org/api/tsubuan?url=http://blog.zuzara.com/2006/12/12/173/

アルゴリズムは以前作ったスクリプトの改良、といった感じです。精度をちゃんと数字にしていませんが、汎用的にどんなブログでも取得できるようになったと思います。必ずしもブログのみが対象ではなく、言語による依存もありません。精度実験では中国語のブログも対象にしてみました。

以前あった、ceekzさんのアイディアも使わせていただきました。
ブログの本文抽出にチャレンジ - Ceekz Logs

・直前のエントリと diff を取る
・RSS の description と比較する

と、句読点の数も本文らしき箇所の候補が複数あった場合、考慮しています。

現時点で認識しているうまく抽出できないケースは、

HTMLを解析しているのでHTMLがきれいでないとうまくいきません。コメントに関しては、分離したかったのですが本文の一部として取得するケースが多いと思います。

またAPIとしては若干、結果を返すまでの時間が長いです。あくまで実験という位置づけで試していただければ幸いです。

注意点

お断り

ご意見等はお気軽にコメント欄までお願いします。
メールでもOKです。

2007年10月11日現在停止中
現在サーバを止めています。

By: funaki | 2006年12月28日 | つくる | Trackback | Comments [RSS 2.0]

5 Comments »

  1. [...] zuzara : ブログの記事本文を抽出するAPI: TSUBUAN KOSHIANに続いてTSUBUANをつくりました。 URLを与えるとそのページに含まれる本文らしき文章をXMLで返すAPIです。 [...]

    Pingback by using API; ブログの記事本文を抽出するAPI: TSUBUAN — 2006年12月30日 @ 10:37

  2. アフィリエイト広告を掲載しているサイトで、TSUBUAN、KOSHIANの両APIを利用したいのですが、商用利用にあたるのでしょうか。
    よろしくお願いします。

    Comment by lsk — 2007年4月8日 @ 17:35

  3. 法人組織で運営しているサイトでなければ構いません。

    Comment by funaki — 2007年4月8日 @ 19:23

  4. 修士論文のため、3000件近くのブログ内容を保存した(HTML形式)が、いろいろなサイトから収集したため、どっちのブログ会社は限っていません。
    このツール利用できますか?

    Comment by シェリー — 2007年6月8日 @ 14:22

  5. シェリーさん、
    どうぞご利用ください。Academicな利用はWelcomeです。

    Comment by funaki — 2007年6月8日 @ 15:04

RSS feed for comments on this post. TrackBack URI

コメントはお気軽にどうぞ

↑top