MS-Wordファイルのテキスト変換
私は Wordファイルが嫌いである。別に絵が入っているわけでもなく、複雑な 表が入っているわけでもない、すなわちプレイン・テキストで十分表現できる 文書を Word形式で保存されたものが特に嫌いである。そんなわけで、なるべ く Wordのファイルは避けているのだが、どうしても読まないといけないこと もある。そんなときは、これまではまず Wordで開いてから、テキストで保存 する、という作業をしていた。しかし、それもめんどくさいと感じて早数年。
Wordファイルをテキストに変換してくれる Unix上で使えるプログラムがいく つかあることは知っていた。しかし、これらを知ったときに試したときは、あ まり私が時間を割かなかったこともあり、日本語の文書の変換がうまくいかな かったので、さっさとあきらめていた。しかし、やはりいちいち Wordで開く のがめんどくさいので、久々にこれらのプログラムを試してみた。
試したのは、 catdoc, Antiword, Word2x で、それぞれ FreeBSD Ports Collection にあるものをコンパイルして試して みた。以下、きわめて短時間に、ろくすっぽドキュメントも読まずに試した結 果であることを理解した上で読んでいただきたい。
Catdoc
- 英語文書
- 問題なく変換
- 日本語文書
- -d utf-8 をつけて実行すれば、 UTF-8に正しく変換。後は、 lvなり UTF-8対応の nkfなりで処理可能。
Antiword
- 英語文書
- 問題なく変換
- 日本語文書
- -m UTF-8 をつけて実行すれば、 UTF-8に正しく変換。後は、 lvなり UTF-8対応の nkfなりで処理可能。
Word2x
- 英語文書
- なぜかエラーが出る。めんどくさいので追っていない。
- 日本語文書
- 英語文書でエラーが出たので試してもいない。
結論
とりあえず antiword か catdoc の出力を nkf -We |jless などとして使うの がお手軽そうである。 (lvのオプションを思い出せなくてそうなってしまっ た…。) Googleで探して出てきた一部のページには、これらのプログラムは日 本語非対応と書いてあったので残念がっていたのだが、まずはやってみること が重要である、ということだ。これで私の Windows PCの Wordが起動される機 会は激減するに違いない。