Unicode…iconv…

気になっている人は気になっていたかもしれませんが、という話。

iconvでUTF-8をEUC-JPに変換しようとしたとする。UTF-8の文字列の中に「−」(全角のマイナス/ハイフン)が含まれていると、不正な入力ということになってしまって、うまくいかないのね。

だからUTF-8なRSSをこのへんで表示させようとして、タイトルとかに「−」が含まれているとそこでタイトルが途切れてしまう。じゃあiconv使うなよって話なんだけど、mbstring入ってないし、そうもいかないでしょ。lv -Iutf8 -Oeucjpでも変換できずに「?」になる。mbstringの変換ではこれが大丈夫なのかどうかはよくわからない。

言いたいことは…これは私のせいじゃありません、ってことで(笑)。

でもなんでこんな状態のままでみんな使っているんだろうか。とりあえず避けるには、出力エンコーディングにUTF-8を使う。私は、避けませんけどね。

(追記) 2004-09-08 11:22

大丈夫な「−」もあります。UTF-8では「−」が複数あるようなんで。

(追記) 2004-09-09 10:57

URL入れてなかったな。このへん(miraclelinux.com)が参考になる。Samba 3.xでUnicodeに対応させたときの話。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です