PDF jako obrázek má i textovou informaci
Zdravím, všiml jsem si ,že některé PDF dokumenty, které vypadají jako scanované (a opravud jsou) se chovají jako textové - text lze normálně označovat. Kde se o tomto dočtu něco víc? Jak se těmto dokumentům říká? Kterým nástrojem je lze vyrábět?
Acrobat by to měl umět
Tohle občas vyrábím skrze ABBYY Fine Reader.
PDF je kontejner, muze obsahovat jenom obrazky (pouziva se JPEG nebo JPEG2000), jenom text nebo oboji. To o cem mluvis je prave navrchu obrazek a pod nim textova vrstva. Obvykle to "vyrabi" OCR systemy, jeden uz tu byl zminen.
S tímhle byl kdysi solidní průšvih, když tajná služba poskytla novinářům dokumenty, kde byly nějaké informace začerněny. Ovšem jenom v té grafické vrstvě.
Tajna sluzba je banda idiotu a dobre jim tak, pamatuju jak jeden znamy predvadel nekde na policii (vnitru) skener, byl pod neustalym dohledem a dokumenty, ktere tam skenoval, posleze odborne vymazali, aby se neco nedostalo ven. Recuvu asi neznali, byli tam nejake hovadiny, nic zajimaveho, kdyz jsem mu ty dokumenty obnovil, nechapal, proc tam delali takove drama.