
Jak ve FineReader 15 odstranit "inkoustové razítko z papíru"?
Hezký den,
jak ve FineReader 15 odstranit "inkoustové razítko z papíru"?
Zdrojem je dostatečně kvalitní TIF, 600 dpi, 16,7 Million (24 BitsPerPixel).
Lze to vůbec udělat ve FR 15? U výrobce jsem našel jen zmínku o redigování.
Případně jakým programem to udělat? Nejsem grafik a dělat se s tím po pixelech, to je nesmysl.
Vyhledávače mne směřují na slepou cestu k aplikacím pro odstranění vodoznaku (remove watermark). Asi špatně hledám...
Uvažujme dvě zdrojové varianty:
1) Bílý papír, černý text, modrý inkoust,
2) bílý papír, černý text, černý inkoust. Pokud to půjde udělat ve FR 15, tak jak si poradit se shodou barev černý text vs černý inkoust?
Předem díky za rady.
Fulltextový soubor ukazka_pro_upravu_PDF_pred_OCR_001.pdf slouží pouze pro názornost. Z něj jsem vygeneroval ty TIFy, protože má zdrojová data jsou ve formátu TIF (soukromé dokumenty které nechci zveřejnit) .
Ze zkušeností vím, že jsou dokumenty u kterých je třeba zachovat původní "barvu papíru".
ScanTailor vyzkouším. Díky za tip.
Není dokument jako dokument. Ke každému musím přistupovat individuálně. To je podobné jako při skenování. Když si s někým stoupnu ke skeneru, tak mezi jeho skenem a mým skenem budou rozdíly. Dost v tom hrají roli znalosti a zkušenosti. Proto je třeba vždy individuálně posoudit a ustanovit vhodný postup zpracování. Variabilita je značná.
Nahoře píšeš, že to potřebuješ provádět efektivně napříč stovkami souborů a tady zase píšeš, že se to má posuzovat individuálně, tak jak to teda je?
Za mě souhlasím s tím individuálním postupem, prostě to pomocí klonovacího nástroje třeba ve Photoshopu čistit postupně soubor po souboru. To samé máš s těma změnama kontrastu a jasu, taky se to dá málokdy v dávce, ale musí člověk po jednom. Automatizace funguje na těhlech věcech jen do určité míry.
To snad ne, to zařízení si musíte nastavit tak, aby to bylo pořád stejné.
ale proč ne. obvykle si nastavíš 300dpi, mělo by stačit i pro drobný text.
v závislosti na předloze a nebo na zkušenostech s daným skenerem snímáš buď do barvy nebo do stupňů šedi.
někdy má skener poloautomatickou předvolbu co to má být (text, prezentace, fotka), pak bych volil asi to prostřední (nebo test všechny možnosti), výsledky se dost liší.
hlavně ten svůj superkvalitní sken uložíš třeba do .png nebo .tif pro tu chvíli, je to jedno. rozhodně ne hned do pdf.
pak už jen nějaký bitmapový editor, vygumuješ co nemá být a k překrytí klonovací štětec nebo klonovací razítko, jak pravíš, říkají tomu různě. (obarvovat plechovkou fak ne)
čili ručně.
Postupem času jsem se i u textových předloh dostal na 600 dpi + "foto" kvalita. Kapacita úložišť je velká a ceny nízké, takže když už snímat, tak ve vyší kvalitě. Je to pak sice větší objem dat u TIF formátu, ale není to nijak zásadní. Mimochodem není TIF jako TIF. U TIF formátu je variabilita nastavení. Nepoužívám na výstupu ze zařízení JPG ani PDF. Dost záleží na čem to snímám. Časem jsem se propracoval z malých skenerů k velkým multifunkcím. Z hlavních výrobců mi kvalitativně vyhovuje jeden jediný. Jak jde vývoj dále, tak se paradoxně zhoršila kvalita snímačů. Pro mne je přijatelná pouze velká korporátní multifunkce. Cokoli domácího je provar času a peněz. Fakt je, že na těch strojích mám nalítáno víc než pražští taxikáři...
U deskových a produkčních skenerů vždy skenovat jako "Photo", pokud bude probíhat dlaší zpracování obrazu jinde. Ostatní volby mají silné zkreslení obrazu. Jistě, může být pozitivní, pokud už to dál nechci upravovat, to může být, proto tam ty volby jsou. Takže souhlas, skenovat jako fotky všechno.
OCR do písma běžné velikosti nemá lepší schopnost rozlišení znaků nad 300 DPI. Pokud skenuješ na 600 DPI, vyzkoušíš lehce, když to zkonvertuješ do nižšího dpi a znovu proženeš OCRkem. Pouze malilinká písma mají lepší rozeznání znaků na 400 DPI, víc se pro běžné OCR využít nedá. Třeba u produkčních dokumentových skenerů máš ale pouze volby 300/600 DPI, z logiky věci to jiné dpi neumí. Takže může být těch 600 DPI, nad tuto hodnotu snad jen u geodetických map s vrstevnicema.
Dají se skenovat i obě strany naráz, jen musíš zválcovat knihu, abys neměl ve středu oblouk.
Nebo si můžeš koupit na skenování knih nějaký pořádný digitální foťák a k tomu rameno a dokonce i kolébku na knížku, vyrábí tyhle srandy německý Kaiser. Ale ceny jsou takové, že bys to musel dělat na živnost.
Díky za zajímavé informace. K 600 dpi jsem došel, protože jsem upřednostňoval ve výsledném PDF grafickou vrstvu nahoře a textovou vrstvu na pozadí. Mám displej s vyšším rozlišením, než je obvyklé. Proto jsem při 300 dpi kvalitě skenu a jeho zobrazení kvalitativně trpěl (prostě mi to bylo nepříjemné). Od té doby vše skenuju na 600 dpi + foto a uládám do TIF. Pak můžu dalším zpracováním docílit kvalitního OCR a snížení objemu dat přes MRC (to zase považuji za extrémní úbytek kvality, proto to jen používám když chci někomu něco poslat e-mailem).