nascanovany text v PDF do doc formatu
ahoj, existuje nejaky program pro prevod naskenovaneho textu v pdf do formatu doc? zkousel jsem prevest nejaky slozitejsi text pres FreeOSP.net v2.5, ale vyhodilo mi tohle:
_ ' 600502-T02 0r0i ne Ciiente t0 deliver 1 2
ntyecumene "```""`` 1ié%é}é.}Qé ````’’` Y6é§&E11$£1$A`13$i{QéE§]3$£é`£1Y0&1§1%£'Q6i§1I1é`A }1`6}&éé`Qémé ```` 6Lié£éE1&§E1§`Q$i&é"`Q6i.]§1é`$Q$11}ié `````````
""6é`6%`613ié?%-5411 ``A` Ailfléél`Lbéiéii&§`E1é¤9A1}i£{é§}6é}éé '`’"`"`’`'"`` éiéé ````````'' iéjéééfééb ```'"''```` Kébbihb ’’’’’’`’`>’»`AA*``‘‘`"`
jde o cast textu, ktery nemuzu desifrovat nebo aspone nevim jak.
Jakože nejde přečíst ani v tom originálním PDF? Nebo si s tím spíše neumí poradit/převést FreeOSP.net v2.5? Pokud je kvalita předlohy (toho PDF) mizerná, tak se to nějak extra dařit ani nemusí - musel byste tu část, v případě neúspěchu s čímkoliv, jednoduše přepsat.
Ten text je v angličtině nebo češtině či jiném jazyku? Máte nastavený v "nástrojích/tools" (pravděpodobně) správný jazyk dokumentu?
Uložit z PDF do DOC umí ("nějak"), ale je placený, Adobe Acrobart. Velmi kvalitní OCR je např. ABBYY FineReader - opět není zdarma - licence "Shareware". Z Free OCR mě nic superlativního (opravdu dobrého), krom např. nějakého v základu dostatečného, přiloženého ke skeneru, nenapadá.
naskenovany dokument v pdf precist jde, ale nemuze to zpracovat FreeOCR.net. nevim jakym zpusobem fotku prevadi na text, ale myslel jsem ze to funguje tak ze vsechno co se podoba pismenu prevadi na pismena nebo aspon prevadi vsechny znaky zname z klavesnice. kdyz se podivam na kvalitu dokumentu v pdf tak skutecne nejde o moc kvalitni text, ale precist bez problemu jde. Co se tyce textu tak je v cestine, ale bez hacku a carek stejny jako tady u me.
freeocr.JPG
Ono to nějak dostatečně slušně i jde, ne že ne (s výjimkou dodržení přesného rozložení textu), a to jsem to zkusil v obyčejném programu ke skeneru, přes ten Váš vyrobený screen z Wordu.
Zkuste pro zajímavost porovnat:
Jinak supr ideál to samozřejmě také není
Edit: Je to bez jakýchkoliv úprav v onom OCR - jen čistě převedené.
ten vysledek vypada slusne. v cem to bylo udelane?
Software u skeneru Canon, OmniPage SE ver. 2.0.
ten asi neumi otevrit libovolny obrazek z HDD a zpracovat obrazek do txt nebo doc?
Vždyť jsem to tak udělal. Umí otevřít "libovolný" obrázek z HDD/to je fuk odkud.
Stáhl jsem ten Váš screen, ořízl část s původním textem, uložil jako (náhodně jsem zvolil) TIF a ten jsem otevřel v OmniPageSE a jen uložil do DOC (Wordu). Nic víc, cca 2 minutky.
super, a muzete mi ten program najakym zpusobem poslat?
Ale pozor ,
pokud ho chcete přímo na PDF dokumenty, tak ty tato verze ("zdarma" ke skeneru) neumí otevřít, hlásí - "dostupné pouze v OmniPage Pro". Možno jen obrázky (JPEG, TIF atd.) nebo přímo cokoliv ze skeneru.
Jde to obejít, ale je to (musím se smát) na další činnosti [PDF vytisknout a onen tiskový dokument naskenovat , nebo přímo sreen toho PDF, který pak otevřít jako obrázek... Moc praktické to, uznejte, není.].
takle jsem to fakt delat nechtel to me ani nenapadlo. budu asi muset nejakym zpusobem z pdf udelat obrazek a pak to zpracovat nejakym programem.
Takhle mi to převedla aplikace OneNote z balíku MS Office 07
Pokud vlastníte v práci, tak ju zkus.
jde o text ve formatu jakesi primitivni tabl. z vyse uvedeneho prekladu bohuzel nepoznat ze jde o tabulku.
Ve zde popisovaném případě bych ten*.pdf převedl do grafického formátu a pohrál si barvami, zaostřením/rozmazáním a dalšími elementy obrázku a pak bych to zkoušel převést formou OCR znovu.
s tim plne souhlasim jen v pripade ze jde o jednorazovku, ale pokud dostavam hodne nascanovanych textu v pdf a chci opravit/pridat text pak musite souhlasit ze pujde o hodne casove narocnou praci. proto se ptam jestli existuje nejaky program primo pro to pdf a jak jiz jsem tady zjistil tak zrejmne bohuzel ne ,aspon ne free.