URLとローカルに持ってきたファイルからページのタイトルを得るモジュール

作者: わたなべ 2004年3月5日 22:28

タイトル通りのものをGetTitle.pyとして公開してみます。このサイトで使っているままのもので、NewsClipではこのファイルそのものをimportしてタイトル文字列を割り出しています。まだ不完全であることは間違いなく、恐らくメンテナンスされてゆくことでしょう。

引数がファイルオブジェクトではなくてファイル名というところあたりはちょっと良くないよなーなどとは思っております。

あと、毎日新聞を完璧にサポートすることがかなり難しい。元データはNewsMLだと思うんだけど、HTMLにするときのXSLT(なの？)がいろいろあるらしくて、HTMLから記事のタイトルを引っ張ってくるパターンがうまく作れない。悩ましい。

コメントを残す