KOSHIANに続いてTSUBUANをつくりました。 URLを与えるとそのページに含まれる本文らしき文章をXMLで返すAPIです。 RESTで引数はurlしかありませんが、一応仕様はこちらに。 http://zuzara.dyndns.org/docs/contentextractionapi.html サンプルレスポンス: http://zuzara.dyndns.org/api/tsubuan?url=http://blog.zuzara.com/2006/12/12/173/ アルゴリズムは以前作ったスクリプトの改良、といった感じです。精度をちゃんと数字にしていませんが、汎用的にどんなブログでも取得できるようになったと思います。必ずしもブログのみが対象ではなく、言語による依存もありません。精度実験では中国語のブログも対象にしてみました。 以前あった、ceekzさんのアイディアも使わせていただきました。 ブログの本文抽出にチャレンジ – Ceekz Logs ・直前のエントリと diff を取る ・RSS の description と比較する と、句読点の数も本文らしき箇所の候補が複数あった場合、考慮しています。 現時点で認識しているうまく抽出できないケースは、 本文の文字数が極端に少ない はてなのように1つのページに複数の記事がある 一部の、Yahoo!ブログやspaces.live.comのようにdivが改行ごとに含まれるような場合 コメントがやたら長い 本文以外にもたくさん文章がある サイドバーなど、不要な文字列も混じる HTMLを解析しているのでHTMLがきれいでないとうまくいきません。コメントに関しては、分離したかったのですが本文の一部として取得するケースが多いと思います。 またAPIとしては若干、結果を返すまでの時間が長いです。あくまで実験という位置づけで試していただければ幸いです。 注意点 サーバの回線が細いのが不安です。 将来的にドメイン名が変わる可能性が高いです。 蹴飛ばしてケーブルが抜ける等の生活に密着した原因でサーバが止まる可能性があります。 やむを得ず後方互換性のない仕様に変更される可能性があります。 事前の告知なしにサービスを終了する可能性もゼロではありません。 お断り このAPIは無保証です。本APIを利用して発生したいかなる損害に対しても責任を負いません。 商用利用はご相談ください。 1秒に1回以下のリクエストとしてください。 研究目的等で大量のデータを解析する必要がある場合、ご相談ください。 スパイウェアや不正利用、その他法律に反することには利用できません。 本サービスと全く同機能のサービスを本サービスを利用して公開しないでください。 ご意見等はお気軽にコメント欄までお願いします。 メールでもOKです。 2007年10月11日現在停止中 現在サーバを止めています。
Recent Posts
Categories
Archives
- April 2011
- November 2010
- October 2010
- July 2010
- June 2010
- January 2010
- August 2009
- July 2009
- June 2009
- May 2009
- April 2009
- March 2009
- February 2009
- January 2009
- November 2008
- September 2008
- August 2008
- July 2008
- June 2008
- May 2008
- April 2008
- March 2008
- February 2008
- January 2008
- December 2007
- November 2007
- October 2007
- August 2007
- July 2007
- June 2007
- May 2007
- April 2007
- March 2007
- February 2007
- January 2007
- December 2006
- November 2006
- October 2006
- September 2006
- August 2006
- July 2006
- June 2006
- May 2006
- April 2006
- March 2006
- February 2006
- January 2006
- December 2005
- November 2005
- October 2005
- September 2005
- August 2005