OCR-Ergebnis mit in ein PDF packen (was: blank page detection nach dem scannen)

Wed Apr 15 13:43:19 CEST 2009

On Wed, 2009-04-08 20:35:18 +0200, Florian Lohoff <flo at rfc822.org> wrote:
> 
> S/W statt Graustufen -> OCR unmoeglich

Beim Stichwort "OCR"...

Seiten als TIFF zu scannen (bzw. dahin aufzubereiten) und diese TIFFs
exakt in ein PDF zu packen ist ja nicht sonderlich schwierig.

Die einzelnen TIFFs durch die OCR zu jagen ist ebenfalls recht
einfach, natürlich akzeptierend, daß öfters mal Fehler drin sind.

Was ich nun aber suche: Ist es möglich, den OCRten Text irgendwie in
die PDFs zu packen? Und optimalerweise so, daß der via der
Such-Funktionen in den PDF-Betrachtern dann auch den einzelnen Seiten
(also gescannten Bildern dieser) zugeordnet werden kann?

Ich *meine*, schonmal gescannte PDFs gesehen zu haben, bei denen man
vom gescannten Text quasi cut'n'paste machen konnte. Das würd'
(nur so könnte ich mir das erklären) nur gehen, wenn der entsprechende
OCR-Text dem jeweiligen Bild hinterlegt ist.  Mir kommts dabei nicht
darauf an, daß der Text absolut deckungsgleich ist. Mir würds schon
reichen, wenn ich so in etwa auf der richtigen Seite lande :)

MfG, JBG

-- 
      Jan-Benedict Glaw      jbglaw at lug-owl.de              +49-172-7608481
Signature of:         Alles wird gut! ...und heute wirds schon ein bißchen besser.
the second  :
-------------- next part --------------
A non-text attachment was scrubbed...
Name: signature.asc
Type: application/pgp-signature
Size: 197 bytes
Desc: Digital signature
URL: <http://lug-owl.de/pipermail/linux/attachments/20090415/b0aab530/attachment.sig>