とあるPDFファイルからテキストを抜けないかと相談される。普通にできるんじゃないのと思ったら、パスワードがかかっていて、コピーが不可になっていた。公に公開されているファイルだし、コピーされて困るものでもなさそうだけどなあと思いつつ、方法を探してみた。
はてなで同様の質問が出ていたので参考にさせていただいて、
http://www.hatena.ne.jp/1110632462
こちらのページで公開されているソフトで出来るらしいということが分かる。
http://www31.ocn.ne.jp/~h_ishida/
英辞郎の変換でお世話になるEBstudioのページではありませんか。
http://www31.ocn.ne.jp/~h_ishida/xdoc2txt.html
こちらのページからxdoc2txtをダウンロードして、解凍し、
さらに、cryptlib.dllをダウンロードして、先ほどxdoc2txtを解凍したのと同じフォルダに入れて、コマンドプロンプトから、
xdoc2txt -f -n 抽出するPDFファイル
と指定すると、さっくりテキストファイルとして抜き出すことが出来ました。なんとまあ素晴らしいです。
PDFからテキストを抽出する。
当ブログではアフィリエイト広告を利用しています
あとで読む