OCR-Ergebnis mit in ein PDF packen

Jan-Benedict Glaw jbglaw at lug-owl.de
Fri Apr 24 21:53:18 CEST 2009


On Tue, 2009-04-21 10:40:45 +0200, Jan-Benedict Glaw <jbglaw at lug-owl.de> wrote:
> Der Workflow ist also:
> 
> multi-page TIFFs -> single-page TIFFs (via tiffsplit)
> single-page TIFF -> PBM (via convert)
> PBM drehen und in Einzelseiten zerschneiden (via unpaper)
> Einzelseiten OCRen (via ocroscript rec-tess)

Hier brauchts einen Trick. Ich hab' zugeflüstert bekommen, daß da ein
Bug ist, der dazu führt, daß ocroscript die gewählte Sprache nicht
richtig an tesseract durchreicht.

Das schlechte OCR-Ergebnis (im Vergleich zu per-hand aufgerufen) war
mir schon aufgefallen, aber ich hatte keine Erklärung dafür... Wie
auch immer, da ist ein Bug und man sollte sich nicht darauf verlassen,
daß `ocroscript rec-tess --tesslanguage="${TESSLANG}" "${i}" > "${OUTDIR}/hocr/${PNMNAME}.hocr"'
das mit der Sprache so hinbekommt, wie das sein sollte. Stattdessen:

tesslanguage="${TESSLANG}"
export tesslanguage
ocroscript rec-tess --tesslanguage="${TESSLANG}" "${i}" > "${OUTDIR}/hocr/${PNMNAME}.hocr"

...export'iert man "tesslanguage", dann klappts auch echt gut mit der
OCR.

> Einzelseiten wieder nach TIFF konvertieren, Auflösung manuell setzen (via convert, tiffset)
> OCR-Ergebnis mit der Einzel-TIFF-Seite nach PDF (via HocrConverter.py)
> Einzelseiten-PDFs zum Buch machen (pdftk)

MfG, JBG

-- 
      Jan-Benedict Glaw      jbglaw at lug-owl.de              +49-172-7608481
Signature of:                     Eine Freie Meinung in einem Freien Kopf
the second  :                   für einen Freien Staat voll Freier Bürger.
-------------- next part --------------
A non-text attachment was scrubbed...
Name: signature.asc
Type: application/pgp-signature
Size: 197 bytes
Desc: Digital signature
URL: <http://lug-owl.de/pipermail/linux/attachments/20090424/b50030bc/attachment.sig>


More information about the Linux mailing list