Editace PDF - začernění textu
Zdravím
Kvůli ochraně osobních údajů na webu obce řeším, jak v existujících scanovaných PDF dokumentech začernit osobní údaje tak, aby se z dokumentu nedaly nijak vyčíst.
Zkoušel jsem některé nástroje, ale výsledek je takový, že PDF obsahuje scan dokumentu jako jeden vektorový objekt a černé obdélníky jsou extra objekty, takže při pomalém načítání z internetu se prvně načte nahý dokument a zakrývající černé obdélníky až později.
Prosím o tip na sw, nejlépe v češtině, klidně i placený za rozumnou cenu, kterým by se daly ty osobní údaje začernit a spojit do jedné vrstvy.
Dost nerad bych postupoval podle tipu z ministerstva, který říká: vytisknout - začernit fixem - naskenovat.
Tuší, nikoliv fixem. Nic jiného ti asi nezbude.
Prevest ty obrazkove PDF na bitmapu teda nejaky format ala BMP, TIFF, PNG, JPG, provest zacerneni v beznem bitmapovem editoru a nasledne vratit zpet (ulozit jako) do PDF.
Děláme to pomoci X-Change editoru (lze instalovat jako free).
https://www.pdfxchange.cz/produkty/pdf-xchange-editor-plus/
Je tam jedna podmínka - když to v něm uložíš jako PDF, tak to zase v něm po otevření toho PDF můžeš odstranit.
Musíš to výsledné PDF přehnat přes nějakou tu virtuální PDF tiskárnu...je i součásti W10.
je takové začernění funkční? když to označím jako text a zkopíruju do schránky, nejspíš dostanu původní text.
Jako text to asi neoznačíš:
Navíc tam je dovětek, který zabrání zpětnému odstranění začerněných částí:
To je nějaké divné.
Mám PDF-XChange Editor Plus a pokud v dokumentu označím obsah pro anonymizaci a tu v dalším kroku potvrdím, daný obsah se začerní a to co je pod tím definitivně a nenávratně zmizí. Vrátit se to nedá a není to tam, ověřoval jsem to třeba ve vektorovém editoru Affinity Designer (a jde to také ověřit třeba v adobě Illustrator).
Nic ukládat oklikou přes virtuální tisk netřeba, stačí uložit.
Netuším, jak to ale případně má ta neplacená verze.
Devět z deseti paranoiků preferuje tisk, černění, opětovný sken. Jistota.
Sice s odstupem času, ale musím to sem napsat. Paradoxně tento postup v kombinaci s neznalým úředníkem zajistí "obrázek v PDF" a člověka pak není plný internet. Pokud nemají nastavné OCR při skenu, tak to uvedené lidi chrání. Důvody uvádím níže.
Bohužel tento postup nezajistí "strojově čitelný" obsah, takže není použitelný pro úřední věci jako registr smluv apod.
PDF X-Change Editor Plus: jednoduše, rychle, zájemci můžou zkoušet odčernit.
Bez šance.
Existují i scripty, které anonymizaci určitých dat provedou automaticky (rodná čísla, čísla platebních karet, datumy..)
To byla reakce na vytisknuti, zacerneni a naskenovani obrazku. Takovy dokument neni pro registr smluv pripustne.
Takovou smlouvu nemusis nikam davat, protoze je uplne k nicemu (pokud to tedy nemel byt priklad, jak zacerneni funguje) verejne dostupne udaje - jmeno firmy, IC, jmeno druhe strany apod. zacernovat nemas.
Já vím, dal jsem to tu jako příklad správně anonymizovaného dokumentu - prostě jsem jen začernil, co mě napadlo, nejedná se o nějaký oficiální dokumentv. V textu v *pdf jen myší označuji text, položku za položkou, kterou chci odstranit, pak jeden klik v menu a je to. Schovaná data jsou definitivně pryč.
Uvedenému rozumím. Přesto to z mé praxe to vidím dvěma pohledy.
Například zareaguji na zveřejněný návrh obce. Obec chce prodat pozemek. Uvede podmínky. Pozemek získá nejvyšší nabídka. Pak se to projedná u komise, zastupitelstvo učiní zápis ze zasedání zastupitelstva a ten zveřejní (po OCR obsahuje textovou vrstvu). Otázka zní, co je komu do toho, jaký občan podal návrh a proč zveřejňují cenu? Proč má být občas dohledatelný díky OCR? Kupní smlouvu přeci taky nezveřejní. Přitom by stačilo uvést komu a proč to prodají a za jakou cenu. Běžnou praxí ovšem je, že zveřejní veškeré zájemce včetně cenových nabídek. Člověk jde v takové situaci nechat se proprat obcí a na internet jako "to je ten co na to má tolik peněz" a nebo "to je ten co se tak moc zadluží". Domnívám se, že by měli zveřejňovat pouze iniciály jmen zájemců, neuvádět adresy atd. K iniciálům lze uvést cenu, protože pokud tím splní neidentifikovatelnost osoby, tak je to v pořádku. Tohle je záležitost právního pohledu. Pokud někdo chce, nechť pokračuje v právní poradně s odkazem ta na tento post. Jak to vidíte vy?
Tam byl, co si vzpomínám, problém v tom, že při tom uložení ten Editor udělal na tom PDF vlastně jakoby druhou vrstvu.
Takže se pak dalo v tom Editoru následně tu vrstvu zase odebrat. Ale je to už nějaký pátek, možná, že už to teď vylepšili.
Proto jsme to proháněli tehdy ještě PDF Creatorem (pod W7).
Na webu, kde je zverejnovani do registru smluv je i nastroj na anonymizaci PDF. Zvladne to v existujicim PDF a vse mimo zacernene casti zustane textove, coz by pri vytisknuti, zacerneni a naskenovani nebylo
P.S. Ale koukám, že tam požadují příhlášení přes datovku, takže zřejmě nic.
https://anonymizace.gov.cz/
Takže by šlo použít nějaký online PDF editor, třeba:
https://tools.pdf24.org/cs/edit-pdf
Dobrý den, teď jsem zkoušel PDF 24 Tools, je zdarma. Stáhl jsem si ho do počítače, abych nemusel dokumenty podléhající mlčenlivosti zasílat na jejich server. Potřebuji zakrýt část textu naskenovaného dokumentu. V programu sice nelze označit text, ale dají se tam nakreslit obdélníky libovolné barvy, použil jsem šedé, aby bylo vidět, že je tam něco zakrytého (u bílé by to nemuselo být jasné), ale aby to neplýtvalo barvu tiskárně (pokud bych začernil třetinu strany). Nastavil jsem si obdélník na výšku řádku a ten pak kopíroval a měnil jeho šířku. Zvolíte si, co chcete s dokumentem dělat. Poprvé jsem vybral "Začernit PDF soubor", výsledný soubor byl rozmazaný. Podruhé jsem vybral "Úprava PDF", jsou tam ty samé nástroje jako v první variantě, avšak i další. Výsledný soubor měl shodnou kvalitu jako originál.
Abbyy Fine Reader
Chci varovat před nešvarem, se kterým jsem se v minulosti několikrát setkal.
Zdrojové, již upravené PDF stačilo otevřít v editoru a černá pole vymazat. Ti dobráci pod nimi nechali veškeré údaje. Lidi jsou někdy fakt naivní a když se to potká v kombinaci s neschopnými úředníky a lidmi z IT, tak chudák občan, nehledě na to v jaké je situaci.
To vypovídá jen o tom, že používají k anonymizaci nefunkční postup. PDF X-Change (viz výše), a předpokládám že i Acrobat, provede anonymizaci bez možností návratu.