論文の多くがPDF化されているが、透明テキストがついていない場合がある。Acrobatがするのが楽だが、フリーウェアでも可能。
MacPortsでは、ghostscript, hocr2pdfが含まれているexact-image, tesseractと辞書 (tesseract-eng, tesseract-jpnなど) をインストールする。以下の手順をスクリプトにまとめた(参考にしたrubyスクリプト)。
LZW圧縮してもファイルサイズ大きい3倍くらいになる。圧縮しないと10倍くらい。Acrobatだと元のファイルより小さくなっている。-dPDFSETTINGS=/screenだと解像度はともかく、画像が乱れて使い物にならなかった。 gsの-sDEVICE=tifflzwはモノクロなので、一旦非圧縮の24bitカラーに出力してからconvertで変換している。
追記: pdftkでまとめるのが良い。MacPortsではgcc-4.5のバグ?のため、コンパイルできないのでバイナリをインストール。サイズはpdfsizeoptでAcrobat並みのサイズになった。
#!/bin/sh PDFTK=pdftk GS=gs RES=300 TIFF=tiff24nc GSOPTS="-q -dBATCH -dNOPAUSE" TESSERACT=tesseract CONVERT=convert CONVERTOPTS="-compress lzw" HOCR2PDF=hocr2pdf PDFQUALITY=/ebook if [ $# -lt 2 ]; then echo "Usage :: $0 input.pdf lang (eng|jpn)" exit fi FNAME=$1 LANG=$2 TMPDIR=`mktemp -d /tmp/pdfocr.XXXXXX` cp "${FNAME}" ${TMPDIR} cd ${TMPDIR} ${GS} ${GSOPTS} -r${RES}x${RES} -sDEVICE=${TIFF} -sOutputFile="${FNAME%.pdf}_%04d.tiff" "${FNAME}" rm -f ${FNAME} for tiff in *.tiff; do ${TESSERACT} -l ${LANG} ${tiff} ${tiff} hocr > /dev/null 2>&1 ${CONVERT} ${COVERTOPTS} ${tiff} ${tiff%.tiff}_lzw.tiff hocr2pdf -i ${tiff%.tiff}_lzw.tiff -o ${tiff%tiff}pdf < ${tiff}.html rm -f ${tiff}.html done
#${GS} ${GSOPTS} -sDEVICE=pdfwrite -dCompatibilityLevel=1.4 -dPDFSETTINGS=${PDFQUALITY} -sOutputFile="${OLDPWD}/${FNAME%.pdf}_ocr.pdf" `ls -1 *.pdf` ${PDFTK} *.pdf cat output ${OLDPWD}/${FNAME%.pdf}_ocr.pdf cd - rm -rf ${TMPDIR}