URLとローカルに持ってきたファイルからページのタイトルを得るモジュール

タイトル通りのものをGetTitle.pyとして公開してみます。このサイトで使っているままのもので、NewsClipではこのファイルそのものをimportしてタイトル文字列を割り出しています。まだ不完全であることは間違いなく、恐らくメンテナンスされてゆくことでしょう。

引数がファイルオブジェクトではなくてファイル名というところあたりはちょっと良くないよなーなどとは思っております。

あと、毎日新聞を完璧にサポートすることがかなり難しい。元データはNewsMLだと思うんだけど、HTMLにするときのXSLT(なの?)がいろいろあるらしくて、HTMLから記事のタイトルを引っ張ってくるパターンがうまく作れない。悩ましい。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です