Kikkerのニュースサイトのキーワード抽出がひどい件
首相と日銀総裁が会談へ、総合防災訓練の一環 (日本経済新聞) 2006年08月25日
キーワード: 情報 reserved rights inc shimbun keizai nihon ガイド 広告 com
菅氏、加藤・山崎両氏との連携に含み (日本経済新聞) 2006年08月25日
キーワード: 情報 reserved rights inc shimbun keizai nihon ガイド 広告 com
民主幹事長、臨時国会召集の日程で反発 (日本経済新聞) 2006年08月25日
キーワード: 情報 reserved rights inc shimbun keizai ガイド nihon 広告 com
外相「石油のために譲らない」・イラン問題 (日本経済新聞) 2006年08月25日
キーワード: 情報 reserved rights inc shimbun keizai nihon ガイド 広告 com
多分全ページ共通のテンプレート部分からキーワードが抽出されてしまっている模様。
ニュースサイトの場合、同じカテゴリの別の記事から共通部分を割り出すとかして*1、その記事固有の文章を抽出して、そこからキーワードを取り出さないと、ニュースのキーワード抽出としては意味を成さないんじゃないかと。
うまくキーワードが抽出されてるニュースもあるが、大半がひどい状況。はてブのsuggestionは大変便利だが、ニュースは今のところ嗜好に関係のあるものが配信されているとはいえない模様。まあ、ニュースに嗜好を求めすぎるのもどうかと思うが。
*1:diffっぽいこと