Skip to main content

ログ取得ツール (移転先予定地)

URLとローカルに持ってきたファイルからページのタイトルを得るモジュール

タイトル通りのものをGetTitle.pyとして公開してみます。このサイトで使っているままのもので、NewsClipではこのファイルそのものをimportしてタイトル文字列を割り出しています。まだ不完全であることは間違いなく、恐らくメンテナンスされてゆくことでしょう。

引数がファイルオブジェクトではなくてファイル名というところあたりはちょっと良くないよなーなどとは思っております。

あと、毎日新聞を完璧にサポートすることがかなり難しい。元データはNewsMLだと思うんだけど、HTMLにするときのXSLT(なの?)がいろいろあるらしくて、HTMLから記事のタイトルを引っ張ってくるパターンがうまく作れない。悩ましい。