PDFからテキストを抽出する。

当ブログではアフィリエイト広告を利用しています

とあるPDFファイルからテキストを抜けないかと相談される。普通にできるんじゃないのと思ったら、パスワードがかかっていて、コピーが不可になっていた。公に公開されているファイルだし、コピーされて困るものでもなさそうだけどなあと思いつつ、方法を探してみた。
はてなで同様の質問が出ていたので参考にさせていただいて、
http://www.hatena.ne.jp/1110632462
こちらのページで公開されているソフトで出来るらしいということが分かる。
http://www31.ocn.ne.jp/~h_ishida/
英辞郎の変換でお世話になるEBstudioのページではありませんか。
http://www31.ocn.ne.jp/~h_ishida/xdoc2txt.html
こちらのページからxdoc2txtをダウンロードして、解凍し、
さらに、cryptlib.dllをダウンロードして、先ほどxdoc2txtを解凍したのと同じフォルダに入れて、コマンドプロンプトから、
xdoc2txt -f -n 抽出するPDFファイル
と指定すると、さっくりテキストファイルとして抜き出すことが出来ました。なんとまあ素晴らしいです。

趣味と物欲

博多天神界隈を本と文房具(万年筆とインク)と電子ガジェットを探して徘徊しています。

PDFからテキストを抽出する。