長らくxpdfの調子がおかしいと思っていたのだが、そのついでにpdftotextの調子もおかしいと思っていたのだが、やはり設定の問題だった。$HOME/.xpdfrcにこう書いたらだいぶ問題が消えた。
cidToUnicode Adobe-Japan1 /usr/share/xpdf/japanese/Adobe-Japan1.cidToUnicode unicodeMap ISO-2022-JP /usr/share/xpdf/japanese/ISO-2022-JP.unicodeMap unicodeMap EUC-JP /usr/share/xpdf/japanese/EUC-JP.unicodeMap unicodeMap Shift-JIS /usr/share/xpdf/japanese/Shift-JIS.unicodeMap cMapDir Adobe-Japan1 /usr/share/xpdf/japanese/CMap toUnicodeDir /usr/share/xpdf/japanese/CMap displayCIDFontX Adobe-Japan1 "-*-fixed-medium-r-normal-*-%s-*-*-*-*-*-jisx0208.1983-0" ISO-2022-JP
こういうのはデフォルトで/etc/xpdfrcに入っていてほしいところ。
これで、日本語のPDFでもpdftotext -enc EUC-JP hogehoge.pdfでhogehoge.txtができて、それなりに読める。