OCR-Ergebnis mit in ein PDF packen
Jan-Benedict Glaw
jbglaw at lug-owl.de
Fri Apr 24 21:53:18 CEST 2009
On Tue, 2009-04-21 10:40:45 +0200, Jan-Benedict Glaw <jbglaw at lug-owl.de> wrote:
> Der Workflow ist also:
>
> multi-page TIFFs -> single-page TIFFs (via tiffsplit)
> single-page TIFF -> PBM (via convert)
> PBM drehen und in Einzelseiten zerschneiden (via unpaper)
> Einzelseiten OCRen (via ocroscript rec-tess)
Hier brauchts einen Trick. Ich hab' zugeflüstert bekommen, daß da ein
Bug ist, der dazu führt, daß ocroscript die gewählte Sprache nicht
richtig an tesseract durchreicht.
Das schlechte OCR-Ergebnis (im Vergleich zu per-hand aufgerufen) war
mir schon aufgefallen, aber ich hatte keine Erklärung dafür... Wie
auch immer, da ist ein Bug und man sollte sich nicht darauf verlassen,
daß `ocroscript rec-tess --tesslanguage="${TESSLANG}" "${i}" > "${OUTDIR}/hocr/${PNMNAME}.hocr"'
das mit der Sprache so hinbekommt, wie das sein sollte. Stattdessen:
tesslanguage="${TESSLANG}"
export tesslanguage
ocroscript rec-tess --tesslanguage="${TESSLANG}" "${i}" > "${OUTDIR}/hocr/${PNMNAME}.hocr"
...export'iert man "tesslanguage", dann klappts auch echt gut mit der
OCR.
> Einzelseiten wieder nach TIFF konvertieren, Auflösung manuell setzen (via convert, tiffset)
> OCR-Ergebnis mit der Einzel-TIFF-Seite nach PDF (via HocrConverter.py)
> Einzelseiten-PDFs zum Buch machen (pdftk)
MfG, JBG
--
Jan-Benedict Glaw jbglaw at lug-owl.de +49-172-7608481
Signature of: Eine Freie Meinung in einem Freien Kopf
the second : für einen Freien Staat voll Freier Bürger.
-------------- next part --------------
A non-text attachment was scrubbed...
Name: signature.asc
Type: application/pgp-signature
Size: 197 bytes
Desc: Digital signature
URL: <http://lug-owl.de/pipermail/linux/attachments/20090424/b50030bc/attachment.sig>
More information about the Linux
mailing list