blank page detection nach dem scannen

Jan 'RedBully' Seiffert redbully at cc.hs-owl.de
Wed Apr 8 19:12:41 CEST 2009


Florian Lohoff wrote:
> On Wed, Apr 08, 2009 at 05:19:31PM +0200, Jan 'RedBully' Seiffert wrote:
>> Warum auch nicht?
>> Klingt zwar "hacky", aber tut was man will:
>> Durch kompression bestimmt man die Entropy im Bild.
> 
> Ich generiere dir ganz schnell hier mit scanner und nen paar stiften
> seiten die als voll durchgehen aber leer sind und umgekehrt.
> 

Och Florian.
Du weisst wie ich das meinte. Man nimmt halt an, das eine Korrelation besteht
zwischen gut komprimierbar <-> leer, schlecht komprimierbar <-> voll.
Halte halt deine Kinder mit den Wachsmalstiften vom Scanner fern ;-)
Wenn wir hier Haare spalten wollten, dann funktioniert keine Methode. Seiten
erstellt mit z.B. SCIgen sind auch "leer", da hilft auch kein OCR.

> Das ganze geht vermutlich im moment nur gut weil ich die seiten vorher
> durch unpaper jage und der schon leichte grauschattierungen platt macht
> und alles auf plain white setzt ... Ansonsten wird die schwellwertermittlung
> schwieriger weil jede pfalz, jede durchscheinende beschriftung ja entropie
> hinzufuegt ...
> 

Etwas Aufbereitung ist eh "pflicht". Deshalb fragte ich ja auch ob du in
Graustufen scannst (neigt dazu viel "unsinn" aufzunehmen den man dann wieder
filtern muss, andereseits vermisst sonst mal ein paar Details...).

>> Ist fast genauso gut wie Pixel auszaehlen die Heller als 240,240,240 sind oder
>> sowas. Grade kompressionen mit Run-Length-Encoding erkennen als teil ihres
>> Algorithmus noch besonders lange "runs" gleicher Farbe. Also eine komplett
>> schwarze Seite ist genauso leer wie eine Komplett gruene.
>> Florian, scannst du in Graustuffen? Hast du mal Fax-Komprimierung ausprobiert?
>> pnmtotiff -g3 oder -g4
> 
> Ich habe ja jetzt eine loesung - Habe noch mehr vor daher muss das mal
> warten ;) Erstmal den workflow fertig kriegen ...
> 

Sicher, ich wollte nur drauf hinweisen. Diese Komprimierungen reagieren meiner
Erfahrung nach am emfpindlichsten auf Textzeilen in Std.-dokumenten.
Zeilenzwischenraeume/Leerflaechen und Linien komprimieren gut. Wer noch
Faxgeraete so mit Dokumentendurchzug und ihr Geraeuschbild kennt -> kommt genau
daher.

> Flo
Gruss
	Jan

-- 
Infolge des gekürzten Budgets und der gestiegenen Unkosten für Gas,
Öl und Strom wurde das Licht am Ende des Tunnels abgeschaltet. Wir
entschuldigen uns für die dadurch entstandenen Unanehmlichkeiten.



More information about the Linux mailing list