Skip to main content

ログ取得ツール (移転先予定地)

TF-IDF法

ちょっとテスト的に使ってみることにした。キーワードを抽出している。…こういうのってもう流行じゃないのかもね。

TF-IDF法自体はいまいち直観的ではないような気もするスコアリング方法ではあるが、メジャーではあるのですね。

このままいくと、いっそbogofilterとかにかけて文章のSPAMレベルを判定させてみるのもいいかもしれない。一応、機能してないけどエントリのスコアリング投票があるので、それを利用して「つまらない」が多いものをSPAMとして学習していくわけ。…何のために?