Jak ve FineReader 15 odstranit "inkoustové razítko z papíru"?

Hezký den,

jak ve FineReader 15 odstranit "inkoustové razítko z papíru"?
Zdrojem je dostatečně kvalitní TIF, 600 dpi, 16,7 Million (24 BitsPerPixel).
Lze to vůbec udělat ve FR 15? U výrobce jsem našel jen zmínku o redigování.
Případně jakým programem to udělat? Nejsem grafik a dělat se s tím po pixelech, to je nesmysl.
Vyhledávače mne směřují na slepou cestu k aplikacím pro odstranění vodoznaku (remove watermark). Asi špatně hledám...

Uvažujme dvě zdrojové varianty:
1) Bílý papír, černý text, modrý inkoust,
2) bílý papír, černý text, černý inkoust. Pokud to půjde udělat ve FR 15, tak jak si poradit se shodou barev černý text vs černý inkoust?

Předem díky za rady.

Předmět	Autor	Datum
FR neznám, ale co to "překrýt" bílým plným obdélníkem? V PDF-X Change editoru je to otázka pár vteři… L-Core 05.06.2022 15:26	L-Core	05.06.2022 15:26
FR slouží primárně pro OCR - prevod obrazu na text. Pokud je razitko mimo text, je to jednoduche - s… Jan Fiala 05.06.2022 16:09	Jan Fiala	05.06.2022 16:09
Problém je v nastavení výstupu. Pokud je výstupem pouze text, není co řešit, ale pokud je obraz pod,… Kyncl 05.06.2022 16:23	Kyncl	05.06.2022 16:23
Je treba pred prevodem oznacit oblast jako text, nenechavat tam objekt obrazku. K tomu slouzi sablon… Jan Fiala 05.06.2022 17:28	Jan Fiala	05.06.2022 17:28
Označení obrázku jako text znamená jen, že se FR bude snažit v něm rozeznávat znaky, které se objeví… Kyncl 05.06.2022 18:20	Kyncl	05.06.2022 18:20
Výstup předpokládám do PDF. Překrýt to bílým obrazcem nelze, protože razítko se nachází přes text.… ST 05.06.2022 20:49	ST	05.06.2022 20:49
Pouzivam FR12, o odstranovani razitek nic nevim, nemusim nutne znat vsechny funkce, ale tipuju, ze t… RedMaX 05.06.2022 23:22	RedMaX	05.06.2022 23:22
Možná pomůže: How to remove grey watermark Zdenál 06.06.2022 08:19	Zdenál	06.06.2022 08:19
Hezký den, předně se omlouvám za obsáhlejší text, ale hodlám to úspěšně zvládnout i díky vám. Velký… ST 06.06.2022 10:45	ST	06.06.2022 10:45
V tom "ukazka_pro_upravu_PDF_pred_OCR_001.pdf" se dá editovat v podstatě všechno v PDF-XChange Edito… IQ37 06.06.2022 11:17	IQ37	06.06.2022 11:17
Stále není jasné zda chceš dostat pouze text anebo zachovat i obraz nad/pod. To je zcela klíčové. Vy… Kyncl 06.06.2022 11:45	Kyncl	06.06.2022 11:45
U Photo Filtre je i klonovací nástoj. S ním můžeš bez kapátka klonovat odstín z okolí barvy kterou c… Stefran 06.06.2022 17:48	Stefran	06.06.2022 17:48
Díky za info. Měl by to zvládnout každý program na základní práci s grafikou. Se mnou to bude horší,… ST 06.06.2022 18:26	ST	06.06.2022 18:26
Také lze: 1. nový soubor 2x1 cm(při definici souboru lze nastavit cm) 2. Šipka - vytvořím čtvercový… Stefran 06.06.2022 20:28	Stefran	06.06.2022 20:28
Fulltextový soubor ukazka_pro_upravu_PDF_pred_OCR_001.pdf slouží pouze pro názornost. Z něj jsem vyg… ST 06.06.2022 13:54	ST	06.06.2022 13:54
Nahoře píšeš, že to potřebuješ provádět efektivně napříč stovkami souborů a tady zase píšeš, že se t… RMX 06.06.2022 21:30	RMX	06.06.2022 21:30
ale proč ne. obvykle si nastavíš 300dpi, mělo by stačit i pro drobný text. v závislosti na předloze… lední brtník 06.06.2022 22:21	lední brtník	06.06.2022 22:21
Postupem času jsem se i u textových předloh dostal na 600 dpi + "foto" kvalita. Kapacita úložišť je… ST 06.06.2022 23:45	ST	06.06.2022 23:45
U deskových a produkčních skenerů vždy skenovat jako "Photo", pokud bude probíhat dlaší zpracování o… RedMaX 07.06.2022 23:56	RedMaX	07.06.2022 23:56
Díky za zajímavé informace. K 600 dpi jsem došel, protože jsem upřednostňoval ve výsledném PDF grafi… poslední ST 08.06.2022 08:27	ST	08.06.2022 08:27
Cílem je využít hromadného dávkového zpracování, a to co nejvíce. Komplikované části jako razítka v… ST 06.06.2022 23:36	ST	06.06.2022 23:36

FR neznám, ale co to "překrýt" bílým plným obdélníkem?
V PDF-X Change editoru je to otázka pár vteřin

FR slouží primárně pro OCR - prevod obrazu na text. Pokud je razitko mimo text, je to jednoduche - staci udelat sablonu stranky, ktera bude zpracovavat oblast mimo razitka.
Pokud je razitko v textu, nezbude ti nic jineho, nez oblast oznacit jako text a prevedeny text rucne opravit, protoze rozpoznavani pod razitkem neprojde.

Problém je v nastavení výstupu. Pokud je výstupem pouze text, není co řešit, ale pokud je obraz pod, nebo nad textem, je nutné do obrazu zasáhnout grafickým editorem. Zasažený text lze doplnit.

Je treba pred prevodem oznacit oblast jako text, nenechavat tam objekt obrazku.
K tomu slouzi sablona stranky. Nastavi se cela stranka na text a pripadne se pak dodatecne oznaci obrazky, pokud na nejakych strankach jsou.
Odstraneni razitka se musi udelat pred prevodem na text, aby tam razitko vubec nebylo

Označení obrázku jako text znamená jen, že se FR bude snažit v něm rozeznávat znaky, které se objeví napravo víceméně jako řídká změť nesmyslných znaků, nicméně při uložení do pdf se nad/pod text uloží původní obraz stránky, tedy i s razítkem. Souhlasím, že obraz razítka je nutné odstranit před OCR.
Pokud by ale šlo pouze a jenom o text bez obrazu stránky, není co řešit.
Tazatel by musel upřesnit jaký chce výstup.

Výstup předpokládám do PDF.

Překrýt to bílým obrazcem nelze, protože razítko se nachází přes text.

Pokud si dobře pamatuju, tak FR kdysi uměl razítka odstraňovat. Teď to v poslední verzi nemůžu najít. Pak je ještě možnost, že si to po těch cca 10 letech pletu s jiným OCR. Nechce se mi věřit, že to vlajková loď mezi OCR nezvládne.

Pouzivam FR12, o odstranovani razitek nic nevim, nemusim nutne znat vsechny funkce, ale tipuju, ze to tam neni.

Souhlasim, co tu pise JaFi a Kyncl, odstranit pred zpracovanim OCR v nejakem jinem programu.

Co se tyka PDF, tak v tomto kontejneru muzes mit obraz i text, jenom obraz anebo jenom text. Ujasni si prvne, co vlastne chces. Pokud ti staci text, dal ti tu JaFi navod, jak se razitka i v FR zbavit.

Možná pomůže: How to remove grey watermark

Hezký den, předně se omlouvám za obsáhlejší text, ale hodlám to úspěšně zvládnout i díky vám.
Velký dík všem, hlavně panu Zdenálovi. Ten je pravděpodobně nejblíže řešení "automatického odstranění razítka", které však nemusí být vždy vhodně použitelné. Vidím to tak, že jenom někde se hodí automatické odstranění razítka.

Nejprve bude nutné ručně a graficky upravit vstupní TIFy (změnit barvu na pozadí).

Názorná ukázka, viz strany 1, 2 a 94.
https://www.cambridgeenglish.org/Images/167804-c1-advanced-handbook.pdf
==>
Zdrojová data pro další testování:
ukazka_pro_upravu.zip (MD5: 50478215847f5f502e1714d396460b65)
https://www.virustotal.com/gui/file/9d6ef94845a59f9eea44dda13c243957c91adb43a9c6f7e8be32da3e230b9dbc/details

ZIP obsahuje:
ukazka_pro_upravu_PDF_pred_OCR_001.pdf
ukazka_pro_upravu_TIF_pred_OCR_001_001.tif
ukazka_pro_upravu_TIF_pred_OCR_001_002.tif
ukazka_pro_upravu_TIF_pred_OCR_001_003.tif

V jakém programu a jak efektivně "graficky odstranit" razítko, aby na jeho původním místě po něm zůstala jeho okolní barva původního papíru, který byl originální předlohou pro skenování? Zde neuvažuji razítko přes text, ale na volné ploše listu. Např. razítko v odstínech modré na zeleném papíru. Zrovna se to tak potkalo, že ty zdrojové listy pro sken byly v různých pastelových barvách a na nich je černý i bílý text v různých sloupcích a odstavcích porůznu rozesetých po ploše stránek. Do toho ještě umístěné obrázky. Grafik a sazeč se dost vyřádili.

Chci realizovat a zvládnout následující kroky:

Krok 1: Nejprve graficky upravím vstupní TIFy ještě před OCR procesem.
Potřebuju dosáhnout bílého pozadí v TIFech (případně PDF, který je jen nosnou obálkou). Rád se vzdám pastelových barev papíru, které plýtvají tonerem pro odstíny šedi v případě tisku na laserové tiskárně.
V jakém programu a jak efektivně provést změny různých odstínů barev papíru na bílou barvu, a to napříč třeba stovkami TIF souborů?

Prakticky:
Vezmu sken v TIFu s 16,7 million (24 BitsPerPixel) barvami.
Kapátkem naberu "např. nějakou modrou barvu" a programu řeknu, změn mi tento odstín a všechny jemu blízce podobné (ručně nastavím rozsah tolerance odstínů dané barvy), a to na cílovou bílou barvu. Program to automaticky provede u všech TIFů v zadané složce. K dispozici je grafický program PhotoFiltre, ale mé umění v něm je skoro nulové.

Krok 2: Ruční odstranění razítka v grafickém programu. To zatím neřeším a vrátím se k tomu později. Nejprve prosím rady ke kroku 1.

V tom "ukazka_pro_upravu_PDF_pred_OCR_001.pdf" se dá editovat v podstatě všechno
v PDF-XChange Editoru. Viz. příloha.

ukazka-pro-upravu-pdf-pred-ocr-0.pdf 252.73 KiB

Stále není jasné zda chceš dostat pouze text anebo zachovat i obraz nad/pod. To je zcela klíčové.
Vybělení pozadí dokáže dobře ScanTailor.

U Photo Filtre je i klonovací nástoj.
S ním můžeš bez kapátka klonovat odstín z okolí barvy kterou chceš skrýt.

Následně lze ještě rozostřit nebo rozmazat, ale to asi nevyužiješ.

Díky za info. Měl by to zvládnout každý program na základní práci s grafikou. Se mnou to bude horší, ale mám vůli to zvládnout.
Nejlépe když si vytvořím razítko se vzorem barevného listu papíru a jím přerazítkuji místo, ze kterého chci odstranit původní inkoustové razítko. Budu rád za další tipy.

Ještě se chci zeptat k Photo Filtre. Například mám obdelník rozměru 2x1 cm. Když ho chci ve PF rozdělit na dvě části, tak jakým nástrojem? Po rozdělení mi vzniknou dva samostatné čtverce. Ten požadovaný přebarvím na barvu pozadí.

Uvítám jakékoli nápady hodné vyzkoušení ve Photo Filtre.

Také lze:
1. nový soubor 2x1 cm(při definici souboru lze nastavit cm)
2. Šipka - vytvořím čtvercový výběr(jakýkoli rozměr) - pravý myškoklik na výběr a definuji vlastnosti 1x1cm(zrušit zatržítko "zachovat poměr")
3. Posunout výběr na správnou pozici.
4. Definovaný výběr obarvím "plechovkou".

Lze i pokračovat: pravý myškoklik na obarvený výběr a vybrat: "invertovat výběr" - poté lze obarvit i druhou část.

2x1.jpg 0.99 KiB

Fulltextový soubor ukazka_pro_upravu_PDF_pred_OCR_001.pdf slouží pouze pro názornost. Z něj jsem vygeneroval ty TIFy, protože má zdrojová data jsou ve formátu TIF (soukromé dokumenty které nechci zveřejnit) .

Ze zkušeností vím, že jsou dokumenty u kterých je třeba zachovat původní "barvu papíru".

ScanTailor vyzkouším. Díky za tip.

Není dokument jako dokument. Ke každému musím přistupovat individuálně. To je podobné jako při skenování. Když si s někým stoupnu ke skeneru, tak mezi jeho skenem a mým skenem budou rozdíly. Dost v tom hrají roli znalosti a zkušenosti. Proto je třeba vždy individuálně posoudit a ustanovit vhodný postup zpracování. Variabilita je značná.

Nahoře píšeš, že to potřebuješ provádět efektivně napříč stovkami souborů a tady zase píšeš, že se to má posuzovat individuálně, tak jak to teda je?

Za mě souhlasím s tím individuálním postupem, prostě to pomocí klonovacího nástroje třeba ve Photoshopu čistit postupně soubor po souboru. To samé máš s těma změnama kontrastu a jasu, taky se to dá málokdy v dávce, ale musí člověk po jednom. Automatizace funguje na těhlech věcech jen do určité míry.

Když si s někým stoupnu ke skeneru, tak mezi jeho skenem a mým skenem budou rozdíly.

To snad ne, to zařízení si musíte nastavit tak, aby to bylo pořád stejné.

ale proč ne. obvykle si nastavíš 300dpi, mělo by stačit i pro drobný text.
v závislosti na předloze a nebo na zkušenostech s daným skenerem snímáš buď do barvy nebo do stupňů šedi.
někdy má skener poloautomatickou předvolbu co to má být (text, prezentace, fotka), pak bych volil asi to prostřední (nebo test všechny možnosti), výsledky se dost liší.
hlavně ten svůj superkvalitní sken uložíš třeba do .png nebo .tif pro tu chvíli, je to jedno. rozhodně ne hned do pdf.

pak už jen nějaký bitmapový editor, vygumuješ co nemá být a k překrytí klonovací štětec nebo klonovací razítko, jak pravíš, říkají tomu různě. (obarvovat plechovkou fak ne)
čili ručně.

Postupem času jsem se i u textových předloh dostal na 600 dpi + "foto" kvalita. Kapacita úložišť je velká a ceny nízké, takže když už snímat, tak ve vyší kvalitě. Je to pak sice větší objem dat u TIF formátu, ale není to nijak zásadní. Mimochodem není TIF jako TIF. U TIF formátu je variabilita nastavení. Nepoužívám na výstupu ze zařízení JPG ani PDF. Dost záleží na čem to snímám. Časem jsem se propracoval z malých skenerů k velkým multifunkcím. Z hlavních výrobců mi kvalitativně vyhovuje jeden jediný. Jak jde vývoj dále, tak se paradoxně zhoršila kvalita snímačů. Pro mne je přijatelná pouze velká korporátní multifunkce. Cokoli domácího je provar času a peněz. Fakt je, že na těch strojích mám nalítáno víc než pražští taxikáři...

U deskových a produkčních skenerů vždy skenovat jako "Photo", pokud bude probíhat dlaší zpracování obrazu jinde. Ostatní volby mají silné zkreslení obrazu. Jistě, může být pozitivní, pokud už to dál nechci upravovat, to může být, proto tam ty volby jsou. Takže souhlas, skenovat jako fotky všechno.

OCR do písma běžné velikosti nemá lepší schopnost rozlišení znaků nad 300 DPI. Pokud skenuješ na 600 DPI, vyzkoušíš lehce, když to zkonvertuješ do nižšího dpi a znovu proženeš OCRkem. Pouze malilinká písma mají lepší rozeznání znaků na 400 DPI, víc se pro běžné OCR využít nedá. Třeba u produkčních dokumentových skenerů máš ale pouze volby 300/600 DPI, z logiky věci to jiné dpi neumí. Takže může být těch 600 DPI, nad tuto hodnotu snad jen u geodetických map s vrstevnicema.

Dají se skenovat i obě strany naráz, jen musíš zválcovat knihu, abys neměl ve středu oblouk.
Nebo si můžeš koupit na skenování knih nějaký pořádný digitální foťák a k tomu rameno a dokonce i kolébku na knížku, vyrábí tyhle srandy německý Kaiser. Ale ceny jsou takové, že bys to musel dělat na živnost.

Díky za zajímavé informace. K 600 dpi jsem došel, protože jsem upřednostňoval ve výsledném PDF grafickou vrstvu nahoře a textovou vrstvu na pozadí. Mám displej s vyšším rozlišením, než je obvyklé. Proto jsem při 300 dpi kvalitě skenu a jeho zobrazení kvalitativně trpěl (prostě mi to bylo nepříjemné). Od té doby vše skenuju na 600 dpi + foto a uládám do TIF. Pak můžu dalším zpracováním docílit kvalitního OCR a snížení objemu dat přes MRC (to zase považuji za extrémní úbytek kvality, proto to jen používám když chci někomu něco poslat e-mailem).

Cílem je využít hromadného dávkového zpracování, a to co nejvíce.
Komplikované části jako razítka v textu se musí ručně.
Ono se to těžko v zadání popisuje, když v praxi zjistím, že pro skenování není předloha jako předloha. Tahle disciplína je jako rovnice o více neznámých. Za život jsem naskenoval spoustu dokumentů a něco o tom vím.

Rozdílnost je dána nejenom nastavením zařízení na kterém skenuji. Roky praxe ukázaly, že když u toho člověk stojí, tak jak se mu pod rukama chovají např. knihy, tak ho napadají různé fígle a zlepšováky. Jako příklad můžu uvést, že z zájmu kvality skenu brožované předlohy není dobré skenovat obě stránky naráz... ale to už je mimo zadání dotazu.

Zpět do poradny Odpovědět na původní otázku Nahoru