文書の自動分類(カテゴライズ)は長く研究されてきた分野ですが、Yahoo! カテゴリの情報をAPIから取得してシンプルなパターンマッチングで実現できるか実験してみました。
» 【実験】Yahoo! カテゴリの情報を使ってカテゴライズ
適当にブログの記事などを入力してみてください。マッチしたと思しきカテゴリのうち上位にランクインしたものを表示します。
サーバはロリポップなのでさすがに多少時間がかかりますが、計算コスト自体はかなり低め。精度はまずまず?
多義語の問題がやはり残りましたが、ある程度単語数の豊富な文書では直感的に悪くない結果ではないかと思っています。カテゴリの親子関係が、単語の上位/下位概念をある程度示しているのでそれは重み付けに考慮しています。
Yahoo!のカテゴリ自体は、日々増えていくわけでカテゴライズというよりはタギングなのかもしれません。ブログ(RSS)のクローラーで前処理としてカテゴライズしておければ、ブログ検索ももう少し違った風にできるかも。ただ、Yahoo!のカテゴリはサイトを分類するためのものであって、ブログの記事を分類するのにそのまま適用していいか、というと微妙です。ブログの記事は別の角度から分類できるのでは、と考えています。
