nascanovany text v PDF do doc formatu
ahoj, existuje nejaky program pro prevod naskenovaneho textu v pdf do formatu doc? zkousel jsem prevest nejaky slozitejsi text pres FreeOSP.net v2.5, ale vyhodilo mi tohle:
_ ' 600502-T02 0r0i ne Ciiente t0 deliver 1 2
ntyecumene "```""`` 1ié%é}é.}Qé ````’’` Y6é§&E11$£1$A`13$i{QéE§]3$£é`£1Y0&1§1%£'Q6i§1I1é`A }1`6}&éé`Qémé ```` 6Lié£éE1&§E1§`Q$i&é"`Q6i.]§1é`$Q$11}ié `````````
""6é`6%`613ié?%-5411 ``A` Ailfléél`Lbéiéii&§`E1é¤9A1}i£{é§}6é}éé '`’"`"`’`'"`` éiéé ````````'' iéjéééfééb ```'"''```` Kébbihb ’’’’’’`’`>’»`AA*``‘‘`"`
jde o cast textu, ktery nemuzu desifrovat nebo aspone nevim jak.
Jakože nejde přečíst ani v tom originálním PDF? Nebo si s tím spíše neumí poradit/převést FreeOSP.net v2.5? Pokud je kvalita předlohy (toho PDF) mizerná, tak se to nějak extra dařit ani nemusí - musel byste tu část, v případě neúspěchu s čímkoliv, jednoduše přepsat.
Ten text je v angličtině nebo češtině či jiném jazyku? Máte nastavený v "nástrojích/tools" (pravděpodobně) správný jazyk dokumentu?
Uložit z PDF do DOC umí ("nějak"), ale je placený, Adobe Acrobart. Velmi kvalitní OCR je např. ABBYY FineReader - opět není zdarma - licence "Shareware". Z Free OCR mě nic superlativního (opravdu dobrého), krom např. nějakého v základu dostatečného, přiloženého ke skeneru, nenapadá.
naskenovany dokument v pdf precist jde, ale nemuze to zpracovat FreeOCR.net. nevim jakym zpusobem fotku prevadi na text, ale myslel jsem ze to funguje tak ze vsechno co se podoba pismenu prevadi na pismena nebo aspon prevadi vsechny znaky zname z klavesnice. kdyz se podivam na kvalitu dokumentu v pdf tak skutecne nejde o moc kvalitni text, ale precist bez problemu jde. Co se tyce textu tak je v cestine, ale bez hacku a carek stejny jako tady u me.
freeocr.JPG
Ono to nějak dostatečně slušně i jde, ne že ne (s výjimkou dodržení přesného rozložení textu), a to jsem to zkusil v obyčejném programu ke skeneru, přes ten Váš vyrobený screen z Wordu.
Zkuste pro zajímavost porovnat:
Jinak supr ideál to samozřejmě také není
Edit: Je to bez jakýchkoliv úprav v onom OCR - jen čistě převedené.
ten vysledek vypada slusne. v cem to bylo udelane?
Software u skeneru Canon, OmniPage SE ver. 2.0.
ten asi neumi otevrit libovolny obrazek z HDD a zpracovat obrazek do txt nebo doc?
Vždyť jsem to tak udělal. Umí otevřít "libovolný" obrázek z HDD/to je fuk odkud.
Stáhl jsem ten Váš screen, ořízl část s původním textem, uložil jako (náhodně jsem zvolil) TIF a ten jsem otevřel v OmniPageSE a jen uložil do DOC (Wordu). Nic víc, cca 2 minutky.
super, a muzete mi ten program najakym zpusobem poslat?
Ale pozor ,
pokud ho chcete přímo na PDF dokumenty, tak ty tato verze ("zdarma" ke skeneru) neumí otevřít, hlásí - "dostupné pouze v OmniPage Pro". Možno jen obrázky (JPEG, TIF atd.) nebo přímo cokoliv ze skeneru.
Jde to obejít, ale je to (musím se smát) na další činnosti [PDF vytisknout a onen tiskový dokument naskenovat , nebo přímo sreen toho PDF, který pak otevřít jako obrázek... Moc praktické to, uznejte, není.].
takle jsem to fakt delat nechtel to me ani nenapadlo. budu asi muset nejakym zpusobem z pdf udelat obrazek a pak to zpracovat nejakym programem.