KOSHIAN APIを使って100shiki.comの頻出キーワードをランキング

文章からキーワードを抜き出すKOSHIAN APIを使って100shiki.comの2005〜2006年の記事を解析してみました。記事本文の中に10回以上登場したキーワードのランキングになります。

順位、キーワード登場回数
1. サイト881
2. サービス381
3. ツール179
4. ブログ170
5. RSS134
6. ウェブ124
7. データ76
8. コンテンツ74
9. IPOD69
10. 検索エンジン67
11. アイテム63
12. 結果61
13. インターフェース57
14. ユニー57
15. メール57
16. URL55
17. ページ54
18. イデア53
19. ファイル49
20. ワード48
21. オンライン48
22. メッセージ45
23. システム43
24. リスト41
25. 時代41
26. ボタン40
27. 組み合わせ38
28. ニュース38
29. GOOGLE37
30. ゲーム36
31. 毎日36
32. カード35
33. インターネット34
34. クリック34
35. デザイン33
36. シーン32
37. ネット31
38. AJAX31
39. テキスト31
40. ブックマーク31
41. PODCASTING31
42. ビジネス31
43. リンク30
44. 自転車29
45. マウス29
46. ダウンロード29
47. コード29
48. ソフトウェア28
49. チェック28
50. ユーザー28
51. コメント28
52. キーボード27
53. 日本27
54. 部屋27
55. プログラム27
56. カメラ27
57. パソコン27
58. サーバー26
59. バッグ26
60. インストール25
61. ポイント24
62. メディア24
63. ウィンドウ23
64. FLICKR22
65. コンセプト22
66. リアル22
67. メッセンジャー20
68. ブラウザ20
69. アプリケーション20
70. ブロガー20
71. クリエイティブ20
72. RSSリーダー20
73. SKYPE19
74. ガジェット19
75. 携帯電話19
76. .COM19
77. ビデオ19
78. ドラッグ18
79. どんどん18
80. 開発18
81. SHUFFLE18
82. テレビ18
83. コミュニケーション17
84. フィード17
85. コンピュータ17
86. イベント17
87. おしゃれ17
88. ケース17
89. ショー16
90. アクセス16
91. トレンド16
92. 文字16
93. アラー16
94. デスクトップ16
95. マンガ16
96. THE16
97. FLASH16
98. アップロード16
99. オークション16
100. ストーリー16
101. ニッチ16
102. プロジェクト16
103. デジタル16
104. トイレ16
105. アプリ15
106. スポーツ15
107. DVD15
108. スペース15
109. レビュー15
110. レイアウト15
111. コミュニティ15
112. コスト15
113. レベル14
114. セキュリティ14
115. プラグイン14
116. キャラクター14
117. ドメイン14
118. USB14
119. リアルタイム14
120. リズム14
121. スライド13
122. コピー13
123. ランダム13
124. ラジオ13
125. ポケット13
126. ジョン13
127. ポート13
128. HTML13
129. CSS13
130. USBメモリー13
131. SNS13
132. イメージ13
133. カスタマイズ12
134. ペット12
135. パスワード12
136. 10012
137. アイコン12
138. ホームページ12
139. ワイン12
140. ソーシャルブックマーク12
141. カレンダー12
142. お気に入り11
143. ドロップ11
144. ライト11
145. WIKI11
146. WINDOWS11
147. バック11
148. GPS11
149. バックアップ11
150. ベッド11
151. カバー11
152. マーケット11
153. ダイエット11
154. 最適化11
155. フィードバック11
156. マーケティング11
157. プロセス11
158. ベース11
159. ストレス11
160. コーヒー11
161. ステップ11
162. デジカメ10
163. API10
164. フラッシュ10
165. ブログパーツ10
166. 正規表現10
167. レンジ10
168. ブックマークレット10
169. ギフト10
170. かわいい10
171. アクセサリー10
172. イミン10
173. タイトル10
174. チャット10
175. モニター10
176. プログラミング10
177. フォーム10

若干、意味不明のキーワードも混じってしまっているのでAPIの精度にはまだまだ改良の余地がありそうです。とはいえ、ちょっと意外だったり面白いキーワードも抽出されていて興味深いです。

データは2M程で、同じネットワーク内のマシンからPHPで書いたスクリプトでAPIを叩いて解析すると3.5秒程度。

前回いただいた100shiki.comのデータを再び使わせていただきました。ちなみにAPIはこのときの開発合宿の成果物の1つです。

This entry was posted in つくる. Bookmark the permalink. Both comments and trackbacks are currently closed.

One Trackback

Page optimized by WP Minify WordPress Plugin