» home

KOSHIANの特徴語抽出アルゴリズムについて

lang=enを指定できるようにしました。対象が英文のときに指定してください。
documentもブログの記事からAPIと同じドメインに移動させつつ更新。怪しげですが英語で書いてみました。

Documentation for Term Extraction API “KOSHIAN”

ところでKOSHIANのアルゴリズムについてですが、要素としては

前処理に形態素解析器(MeCabとかChaSen)は利用していません。はてブを見たら形態素解析のタグが一番大きくなっていてびっくりしました(笑)

辞書さえ作れればどんな言語にでもほぼ同じアルゴリズムでキーワードを抽出できるはずです。辞書は複数の情報源の組み合わせですが、Wikipediaを多く利用させていただいています。

現状で認識している問題点:

まだまだ要改善。が、精度はある程度のところで見切りをつけたいと思っています。100%の精度は実現不可能だと思うので。

早いうちに、キーワードに重み付けした結果を出せるようにしたい。
特徴語抽出は基礎技術的な位置付けなので、このAPIを使ってアプリをつくっていく予定。乞うご期待。

By: funaki | 2006年12月12日 | いじる | Trackback | Comments [RSS 2.0]

コメントはまだありません。 »

RSS feed for comments on this post. TrackBack URI

コメントはお気軽にどうぞ

↑top