blank page detection nach dem scannen
Florian Lohoff
flo at rfc822.org
Wed Apr 8 16:41:09 CEST 2009
On Wed, Apr 08, 2009 at 02:06:40PM +0200, Thomas Findeisen (npl at npl.de) wrote:
> Subject: Re: blank page detection nach dem scannen
>
> > Welche aufloesung macht ihr und wofuer? Ich bastel hier ja
> > an meinem privaten Dokumentenmanagement system. Schon recht
> > weit fortgeschritten. Im moment baue ich den import der
> > auch Ehefrauenkompatibel ist. Zeugs rein - Knopf druecken.
>
> Es handelt sich im allgemeinen stets um Rechnungsworkflows.
> Rechnungen werden fast immer mit 300dpi eingescannt um diese
> danach durch eine OCR erkennen lassen zu können. 150dpi sind
> zwar sicher auch ausreichend, ergeben aber meist ein
Ich habe im moment nur einen USB1.1 Scanner (fi-4120C) und
der wird bei 300dpi schon signifikant langsamer (wir reden
nicht von 600 DPI Farbe :)) - Also tendiere ich zu 150dpi.
Meine testdokumente die ich in der Datenbank habe zum spielen habe ich
alle mit 150dpi auf einem Lexmark Multifunktionsgeraet (Lexmark 645de)
gescannt.
> schlechteres Ergebniss auch wenn man das optisch kaum sehen
> würde. Die Seiten eines Dokuments werden in ein Multipage-TIF
> gewandelt. Meistens wird noch durch den Kunden ein Anlagen-
> trennblatt hinzugefügt um den OCR-Server nicht unnötig Anlagen
> einscannen lassen zu müssen.
Was setzt ihr das als OCR ein? Ich habe mal ein bischen mit den freien
gespielt und da taugt nix - Wer einmal OmniPage probiert hat der ist
von allem anderen enttaeuscht ...
Bei Fliesstext finde ich das "tesseract" noch okay - aber wer
erwartet das ein dokumentenlayout vielleicht ansatzweise erkannt
oder verarbeitet wird der wird ziemlich enttaeuscht sein.
ocropus soll ja angeblich die layouterkennung koennen und das als OCR
tool tesseract benutzen - ist bei mir vom ergebniss aber auch sehr
enttaeuschend gewesen.
Ich setze im moment nicht wirklich auf OCR - Finde ich eher uninteressant.
Die 10 Dokumente in der Woche kann ich auch manuell man einer description
und tags versehen. Evtl ocr ich da einfach mit tesseract drueber und pumpe
den schrott zusaetzlich in die datenbank - dann kann man mal sein glueck
versuchen.
Flo
--
Florian Lohoff flo at rfc822.org +49-171-2280134
Those who would give up a little freedom to get a little
security shall soon have neither - Benjamin Franklin
-------------- next part --------------
A non-text attachment was scrubbed...
Name: signature.asc
Type: application/pgp-signature
Size: 189 bytes
Desc: Digital signature
URL: <http://lug-owl.de/pipermail/linux/attachments/20090408/b355182a/attachment.sig>
More information about the Linux
mailing list