AurigaDoclet日本語対応
げー、JTidyで2バイト系はやっぱりダメですか。http://lists.w3.org/Archives/Public/html-tidy/2001JanMar/0093.htmlより。
JTidy do a straight translation of the C version of Tidy which including its own routine to handle character encoding. Currently, Big5 isn't supported by the JTidy. A solution to convert Big5 to UTF8 is developedin XMLC (xmlc.enhydra.org) which use Tidy as the default parser.
We are using XMLC to parse Chinese HTML document into DOM.
意訳
JTidyはCバージョンのTidyを全くそのまんま移植したもので、文字エンコーディングの処理なんかもオリジナルのままなんだ。今のところBig5(訳注:中国語のエンコーディングの一つ)はJTidyでは対応してないよ。Big5からUTF8に変換したかったらXMLCを使うといい。Tidyが標準パーサとして利用されている。
ぼくらも中国語のHTMLからDOMを作るときにはXMLCを使ってるよ。
id:pointzさんの2月3日の日記で見つけました。
今回のわずか4ステップの処理のためにXMLCまで持ち出すのはあまりに大げさなので、この件は保留。