KOSHIANの特徴語抽出アルゴリズムについて

lang=enを指定できるようにしました。対象が英文のときに指定してください。
documentもブログの記事からAPIと同じドメインに移動させつつ更新。怪しげですが英語で書いてみました。

Documentation for Term Extraction API “KOSHIAN”

ところでKOSHIANのアルゴリズムについてですが、要素としては

  • キーワードとなる辞書をごりごり作成
  • キーワードと入力された文章のパターンマッチング

前処理に形態素解析器(MeCabとかChaSen)は利用していません。はてブを見たら形態素解析のタグが一番大きくなっていてびっくりしました(笑)

辞書さえ作れればどんな言語にでもほぼ同じアルゴリズムでキーワードを抽出できるはずです。辞書は複数の情報源の組み合わせですが、Wikipediaを多く利用させていただいています。

現状で認識している問題点:

  • 入力時の全角英数字を半角に統一すべき
  • 表記のぶれに対して完全ではない
  • 3文字ぐらいの短いカタカナ単語が部分一致でヒットしてしまう
  • 辞書の更新

まだまだ要改善。が、精度はある程度のところで見切りをつけたいと思っています。100%の精度は実現不可能だと思うので。

早いうちに、キーワードに重み付けした結果を出せるようにしたい。
特徴語抽出は基礎技術的な位置付けなので、このAPIを使ってアプリをつくっていく予定。乞うご期待。

This entry was posted in いじる. Bookmark the permalink. Both comments and trackbacks are currently closed.

Page optimized by WP Minify WordPress Plugin