PDFと格闘中

 今更、PDFファイルと格闘とはどういうことかと思われるかもしれない。実は、研究室は様々な研究用図書、さらには授業に使う教科書、出版社から送られてくる教科書のサンプルと、書籍や書類であふれている。それを整理しようと数年前から、自炊して膨大なPDFデータファイルを作り上げてきた。

 だが、量が多いゆえに、そのPDFは全て画像として保存したものであり、検索できるものではないため、活用が十分にできないでいる。そこで、ふと、検索ができるようにすれば、文言の検索や例文の検索、あるいは研究上重要な事項の検索に役立つかもしれないと、画像保存のPDFを検索可能なファイルに変換することを思い立った。

 そうなると当然OCR変換が必要となる。そこで老舗のAcrobat Proとなるのだが、今は定期購読の形での購入となり、結構な額がかかる。なんとか、安くできないかとあれこれ検索する。Mac ではPDF Element Proというのがあるようなので、早速1万円近くはたいて購入する。だが…確かにOCRをかけて、WordファイルやTextファイルに変換ができるのだが、元々の画像ファイル上にレイヤーとしてテキストを被せる形ではないので、不便だ。すっかりの散財となる。

 次にScanSnapについているソフトを使う。NuanceというところのPDF Converterである。ScanSnapにはシリアル番号もついていて無料で使える。なるほど、最初からこれにすればよかった。そして、いい気になって、あれこれ変換をかけてみる。遅いのだが、まあ、良しとしよう。

 だが…である。いくつか変換をかけてみたものを検証するとOCRの抜けがあるのだ。これではいくら無料でも、使い物にならない。

 そこで、振り出しに戻ることとなる。Acrobat Proの購読手続きをとる。もう一度、NuanceのPDF Converterで抜けがあったものをOCRにかけてみる。すると、さすがAcrobat Proである。抜けがない。そこそこの速度で精度も高い。確かに値段に見合った性能だ。

 ちなみにAcrobat ProだとPDFに音声が貼り付けられるらしい。ちょっとこれも後で試してみたいと思っている。

 少しばかり研究に時間が避けるこの時期、ゆっくりと研究・教育環境を整えたいと思う。