MS-Wordファイルのテキスト変換

投稿: 2004年12月21日

私は Wordファイルが嫌いである。別に絵が入っているわけでもなく、複雑な 表が入っているわけでもない、すなわちプレイン・テキストで十分表現できる 文書を Word形式で保存されたものが特に嫌いである。そんなわけで、なるべ く Wordのファイルは避けているのだが、どうしても読まないといけないこと もある。そんなときは、これまではまず Wordで開いてから、テキストで保存 する、という作業をしていた。しかし、それもめんどくさいと感じて早数年。

Wordファイルをテキストに変換してくれる Unix上で使えるプログラムがいく つかあることは知っていた。しかし、これらを知ったときに試したときは、あ まり私が時間を割かなかったこともあり、日本語の文書の変換がうまくいかな かったので、さっさとあきらめていた。しかし、やはりいちいち Wordで開く のがめんどくさいので、久々にこれらのプログラムを試してみた。

試したのは、 catdoc, Antiword, Word2x で、それぞれ FreeBSD Ports Collection にあるものをコンパイルして試して みた。以下、きわめて短時間に、ろくすっぽドキュメントも読まずに試した結 果であることを理解した上で読んでいただきたい。

Catdoc

英語文書
問題なく変換
日本語文書
-d utf-8 をつけて実行すれば、 UTF-8に正しく変換。後は、 lvなり UTF-8対応の nkfなりで処理可能。

Antiword

英語文書
問題なく変換
日本語文書
-m UTF-8 をつけて実行すれば、 UTF-8に正しく変換。後は、 lvなり UTF-8対応の nkfなりで処理可能。

Word2x

英語文書
なぜかエラーが出る。めんどくさいので追っていない。
日本語文書
英語文書でエラーが出たので試してもいない。

結論

とりあえず antiword か catdoc の出力を nkf -We |jless などとして使うの がお手軽そうである。 (lvのオプションを思い出せなくてそうなってしまっ た…。) Googleで探して出てきた一部のページには、これらのプログラムは日 本語非対応と書いてあったので残念がっていたのだが、まずはやってみること が重要である、ということだ。これで私の Windows PCの Wordが起動される機 会は激減するに違いない。