TF-IDF法

ちょっとテスト的に使ってみることにした。キーワードを抽出している。…こういうのってもう流行じゃないのかもね。

TF-IDF法自体はいまいち直観的ではないような気もするスコアリング方法ではあるが、メジャーではあるのですね。

このままいくと、いっそbogofilterとかにかけて文章のSPAMレベルを判定させてみるのもいいかもしれない。一応、機能してないけどエントリのスコアリング投票があるので、それを利用して「つまらない」が多いものをSPAMとして学習していくわけ。…何のために?

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です