文章からキーワードを抜き出すKOSHIAN APIを使って100shiki.comの2005〜2006年の記事を解析してみました。記事本文の中に10回以上登場したキーワードのランキングになります。
| 順位、キーワード | 登場回数 |
| 1. サイト | 881 |
| 2. サービス | 381 |
| 3. ツール | 179 |
| 4. ブログ | 170 |
| 5. RSS | 134 |
| 6. ウェブ | 124 |
| 7. データ | 76 |
| 8. コンテンツ | 74 |
| 9. IPOD | 69 |
| 10. 検索エンジン | 67 |
| 11. アイテム | 63 |
| 12. 結果 | 61 |
| 13. インターフェース | 57 |
| 14. ユニー | 57 |
| 15. メール | 57 |
| 16. URL | 55 |
| 17. ページ | 54 |
| 18. イデア | 53 |
| 19. ファイル | 49 |
| 20. ワード | 48 |
| 21. オンライン | 48 |
| 22. メッセージ | 45 |
| 23. システム | 43 |
| 24. リスト | 41 |
| 25. 時代 | 41 |
| 26. ボタン | 40 |
| 27. 組み合わせ | 38 |
| 28. ニュース | 38 |
| 29. GOOGLE | 37 |
| 30. ゲーム | 36 |
| 31. 毎日 | 36 |
| 32. カード | 35 |
| 33. インターネット | 34 |
| 34. クリック | 34 |
| 35. デザイン | 33 |
| 36. シーン | 32 |
| 37. ネット | 31 |
| 38. AJAX | 31 |
| 39. テキスト | 31 |
| 40. ブックマーク | 31 |
| 41. PODCASTING | 31 |
| 42. ビジネス | 31 |
| 43. リンク | 30 |
| 44. 自転車 | 29 |
| 45. マウス | 29 |
| 46. ダウンロード | 29 |
| 47. コード | 29 |
| 48. ソフトウェア | 28 |
| 49. チェック | 28 |
| 50. ユーザー | 28 |
| 51. コメント | 28 |
| 52. キーボード | 27 |
| 53. 日本 | 27 |
| 54. 部屋 | 27 |
| 55. プログラム | 27 |
| 56. カメラ | 27 |
| 57. パソコン | 27 |
| 58. サーバー | 26 |
| 59. バッグ | 26 |
| 60. インストール | 25 |
| 61. ポイント | 24 |
| 62. メディア | 24 |
| 63. ウィンドウ | 23 |
| 64. FLICKR | 22 |
| 65. コンセプト | 22 |
| 66. リアル | 22 |
| 67. メッセンジャー | 20 |
| 68. ブラウザ | 20 |
| 69. アプリケーション | 20 |
| 70. ブロガー | 20 |
| 71. クリエイティブ | 20 |
| 72. RSSリーダー | 20 |
| 73. SKYPE | 19 |
| 74. ガジェット | 19 |
| 75. 携帯電話 | 19 |
| 76. .COM | 19 |
| 77. ビデオ | 19 |
| 78. ドラッグ | 18 |
| 79. どんどん | 18 |
| 80. 開発 | 18 |
| 81. SHUFFLE | 18 |
| 82. テレビ | 18 |
| 83. コミュニケーション | 17 |
| 84. フィード | 17 |
| 85. コンピュータ | 17 |
| 86. イベント | 17 |
| 87. おしゃれ | 17 |
| 88. ケース | 17 |
| 89. ショー | 16 |
| 90. アクセス | 16 |
| 91. トレンド | 16 |
| 92. 文字 | 16 |
| 93. アラー | 16 |
| 94. デスクトップ | 16 |
| 95. マンガ | 16 |
| 96. THE | 16 |
| 97. FLASH | 16 |
| 98. アップロード | 16 |
| 99. オークション | 16 |
| 100. ストーリー | 16 |
| 101. ニッチ | 16 |
| 102. プロジェクト | 16 |
| 103. デジタル | 16 |
| 104. トイレ | 16 |
| 105. アプリ | 15 |
| 106. スポーツ | 15 |
| 107. DVD | 15 |
| 108. スペース | 15 |
| 109. レビュー | 15 |
| 110. レイアウト | 15 |
| 111. コミュニティ | 15 |
| 112. コスト | 15 |
| 113. レベル | 14 |
| 114. セキュリティ | 14 |
| 115. プラグイン | 14 |
| 116. キャラクター | 14 |
| 117. ドメイン | 14 |
| 118. USB | 14 |
| 119. リアルタイム | 14 |
| 120. リズム | 14 |
| 121. スライド | 13 |
| 122. コピー | 13 |
| 123. ランダム | 13 |
| 124. ラジオ | 13 |
| 125. ポケット | 13 |
| 126. ジョン | 13 |
| 127. ポート | 13 |
| 128. HTML | 13 |
| 129. CSS | 13 |
| 130. USBメモリー | 13 |
| 131. SNS | 13 |
| 132. イメージ | 13 |
| 133. カスタマイズ | 12 |
| 134. ペット | 12 |
| 135. パスワード | 12 |
| 136. 100 | 12 |
| 137. アイコン | 12 |
| 138. ホームページ | 12 |
| 139. ワイン | 12 |
| 140. ソーシャルブックマーク | 12 |
| 141. カレンダー | 12 |
| 142. お気に入り | 11 |
| 143. ドロップ | 11 |
| 144. ライト | 11 |
| 145. WIKI | 11 |
| 146. WINDOWS | 11 |
| 147. バック | 11 |
| 148. GPS | 11 |
| 149. バックアップ | 11 |
| 150. ベッド | 11 |
| 151. カバー | 11 |
| 152. マーケット | 11 |
| 153. ダイエット | 11 |
| 154. 最適化 | 11 |
| 155. フィードバック | 11 |
| 156. マーケティング | 11 |
| 157. プロセス | 11 |
| 158. ベース | 11 |
| 159. ストレス | 11 |
| 160. コーヒー | 11 |
| 161. ステップ | 11 |
| 162. デジカメ | 10 |
| 163. API | 10 |
| 164. フラッシュ | 10 |
| 165. ブログパーツ | 10 |
| 166. 正規表現 | 10 |
| 167. レンジ | 10 |
| 168. ブックマークレット | 10 |
| 169. ギフト | 10 |
| 170. かわいい | 10 |
| 171. アクセサリー | 10 |
| 172. イミン | 10 |
| 173. タイトル | 10 |
| 174. チャット | 10 |
| 175. モニター | 10 |
| 176. プログラミング | 10 |
| 177. フォーム | 10 |
若干、意味不明のキーワードも混じってしまっているのでAPIの精度にはまだまだ改良の余地がありそうです。とはいえ、ちょっと意外だったり面白いキーワードも抽出されていて興味深いです。
データは2M程で、同じネットワーク内のマシンからPHPで書いたスクリプトでAPIを叩いて解析すると3.5秒程度。
前回いただいた100shiki.comのデータを再び使わせていただきました。ちなみにAPIはこのときの開発合宿の成果物の1つです。

KOSHIAN APIを使って100shiki.comの頻出キーワードをランキング
1 Comment
»
コメントはお気軽にどうぞ




[...] 100shiki.comの過去記事を対象に解析した例も載せている。 zuzara : KOSHIAN APIを使って100shiki.comの頻出キーワードをランキング [...]
Pingback by using API; - KOSHIAN: 文章からキーワードを抜き出すAPI — 2007年7月27日 @ 11:16