Knihy v pdf - nejde přeložit text
Zdravím místní specialisty.Dostal jsem CD s několika naskenovanými knihami.Jsou v němčině,angličtině a polštině.Jde mi o to,že bych si rád přeložil text.Problém je v tom,že když označím text,tak mi to napíše "kopírovat ctrl+c".To udělám a když to chci potom vložit do překladače,tak se nic nevloží.Kde je chyba?
Změna předmětu, původně: Knihy v pdf (Kráťa)
Naskenovanými? Než se drbat s rekognitou, bude rychlejší naučit se německy / anglicky / polsky.
dnes bych doporučil spíše ABBYY finereader.
To jsem jen tak plácnul. Bílý pes, černý pes - pořád pes.
Tak s tím souhlasím.Pouze plácání a nic k věci.
No a co čekáš? Potřebuješ rekognitu (Optical Character Recognition, OCR). Kdysi jsem si s tím hrál, skenoval jsem nesehnatelné folianty v english. Neznáš-li inkriminovaný jazyk, bude ti výsledek toliko ku hovnu. Dokáže to doprznit text k nepoznání.
Nebo si sehnat danou knihu v textu.
Ty knížky nejsou tak lehce sehnatelné.Kdyby to šlo takto lehce sehnat,tak to nebudu mít naskenované na CD.Stáhl jsem si ten screenocr.exe,ale nějak to nemaká..
Nepostradatelný text v polštine ... vrtá mi, vzpomínky na mládi Jana Pavla II/Karol Wojtyla ...
Po polsky čítať, ... maximálne, ceny z tržnice ...
Kvalitny OCR program zadarmo nezozenies. Fine reader je jeden z najlepsich, ale nie je zadarmo. Ale zvladne precitat toho asi najviac.
Tak ten zrovna zkouším...uvidíme...
Drahý příteli, kvalitní OCR neexistuje (i když FR je jedním z těch lepších). Nejsme ve Star Treku. Bez znalosti jazyka skenovaného dokumentu zešílíš.
Takže když je dokument na CD ve formátu pdf,tak je ještě důležité to v jakém jazyce je to naskenované?Nebo jak tomu mám rozumět?
Nikoliv. Je důležité ovládat jazyk skenovaného dokumentu. Rekognita ti tam naseká otazníky, které budeš muset nahradit správnými písmenky. Používáš-li zároveň s ní i thesaurus (některé "lepší" OCR jej nabízejí), pak ti z textu vznikne kontextově nesrozumitelná matlanina. Navíc vyladit (naučit) to není žádná prdel. Vím co mluvím (píšu). Neříká se mi to snadno, ale chceš-li si zachovat mentální zdraví, raději to vzdej.
Tak jsem nainstaloval ten FR a píše to,že obrázek je malý a poškrábaný..fakt se mi to nechce datlovat do Google překladače...je toho 65 stran textu.Těch knížek je na tom CD 17 a to bych se z toho asi rozpospos..l.Fakt není jiná možnost jak to z toho CD překlopit do překladače?
To je pohoda. Lepší nadatlovat, a do mateřštiny (neznáš-li autorův jazyk) přeložit třeba gůglem. Taky z toho (strojového překladu) vznikne paskvil, bude se v tom ale dát trochu orientovat. Abych ale jen nehanil - ten FR není špatný, chce ale "študovat" (to poznáš ), krom toho doporučuju obrázek s co nejlepším rozlišením a černobílý (striktně!) s vysokým kontrastem. Hraj si, tu máš kohouta...
Musíš to celé rozdělit na dvě fáze.
První - z obrázku dostat text, který se správný, bez překlepů. Máš dvě možnosti: OCR a opravovat ručně nebo to rovnou v cizí řeči přepisovat. Bohužel opravování v neznámé řeči zabere možná víc času než to rovnou v té neznámé řeči opisovat (záleží, jak píšeš).
Druhá - překlad. Pokud cizí řeči rozumíš a nebudeš používat nějaký translator, asi bude nejrychlejší ten naskenovaný text ROVNOU překládat a přepisovat v češtině.
Katastrofálně náročné na čas. Buď bych to našel v textech, nebo bych se na to vykašlal.
My, co některou ze zmíněných (či více) řečí umíme, jsme za vodou. Pokud to nepotřebuješ fyzicky, pro jiné.
Nesouhlasim, kvalitní OCR existuje, pokud máš kvalitní vstup. Před 10ti lety už byly programy, kde jsem po menších opravách dokázal identifikovat nad 98% textu, možná více. Osobně si myslim, že MNOHEM VÍCE (a zvláš když se pak ty chyby vynásobí) to zmrví ten překlad do jiného jazyka.
Abys byl schopny delat OCR, potrebujes aspon trochu kvalitni zdroj (obrazky, idealne stupne sede). Pokud to nekdo zprasil cernobile a jeste to prohnal kompresi v PDF, uz z toho moc textu nedostanes.
Home verzia: 41,- € s DPH , v porovnáni s cenou knih není mnoho, cena jedinej knihy s odbornou tématikou sa bežne pohybuje 20-30 €.
Není co váhat.
Tak s tím souhlasím.To je fakt.Někdo tu ovšem psal,že to není zas tak jednoduché.
A zeptám se ještě na jednu věc.Přemýšlím o koupi tohoto Ruční scaner Scanline MT4090.Bude to fungovat s tím programem Abbyy FR?
Abbyy je vymakaný software,pracuje s velkým množstvom akýchkolvek skenerov,dôležité je mať správne ovládače pre skener a používaný operačný systém aby bol skener správne nainštalovaný a inicializovaný operačným systémom,potom ho nájde aj obslužný software
Ručním skenerem nedokážeš jet tak pomalu a plynule, aby vznikl kvalitní podklad pro rozpoznání a snížíš si to z úspěšnosti třeba 95 % na 80 %.
Kazdy rozumny OCR podporuje vstup i ve formátu .PNG. JPG - tedy pres nejakou "standartní obrázkovou vrstvu" tedy scannerově by měl být nezávislý.
než takový (a ještě předražený) šit, proč si nekoupíš normální scanner?
Já osobně doporučuju tento model: http://www.alfacomp.cz/php/product.php?eid=1051400 8800000010BH
Protože je ruční a ne stolní.
Nadělej z té knihy obrázky (klávesa print screen) a nepotřebuješ skener.
Ruční skener je dobrý tak do obchodu na čárkové kódy.
Jak se prosím dělají z normální papírové knihy printscrenem obrázky? Rád se scanneru zbavím
Hihi. Z té pdf jsem měl na mysli.
Ale jak píšeš nahoře Azorovi. Pokud to už někdo zprasil...
Tyhle scannery s CIS snimacem na skenovani knih moc dobre nejsou. Budou problemy v miste vazby knihy. Budes muset knihy rozlamat, abys polozil stranky na sklo i v miste vazby.
Poud to myslis se skenovanim knih vazne, pak neco s CCD snimacem.
OCR program bude fungovat s jakymkoliv scannerem.
Skenovat minimalne na 300 DPI ve stupnich sedi.
Tenhle skener mám (hodí se, neb je přenosný a na dvě tužkové baterky). ABBYY Fine Readeru je lhostejné, z jakého skeneru obrázek pochází. Jen je potřeba dostatečný kontrast a rozlišení. Tenhle umí 300 a 600 dpi, tzn. v pohodě. Občas člověku ujede ruka, takže obrázek začíná rovně a končí šikmo, ale to se dá při troše cviku zvládnout.
Díky pozitivní info.Tak to ho můžu bez obav koupit.
Tak zatím program maká jak má.Díky všem za rady.
Tak mám další problém.Když se to v tom programu naskenuje a dám uložit do složky,tak se to sice překlopí tam kam má,ale s koncovkou "tif" a nejde to pak otevřít.Píše mi to,že mám najít program pomocí webu,ale mezi nabídnutejma k použití to napíše Adobe Reader a ten mám.Přesto to ten Adobe neotevře.
TIFF je běžnej obrazovej formát...
To asi je,ale přesto mi to nejde otevřít...
Tak co děláš: skenuješ z papíru a dostáváš soubory .tiff? ABBYY Fine Reader otevírá TIFF zcela bez problémů.
Mám soubory na CD..ty skenuju tim FR a pak to dám uložit do složky.No a v té složce to nejde pak otevřít.
Nerozumím. Jak se skenují soubory z CD Fine Readerem? Skenuje se z papíru, knihy, časopisu. Co teda děláš? Snažíš se to ve FR načíst (=rozpoznat)?
Třeba vytiskne pdf > oskenuje papír ručním skenerem > hodí do FR.
No to je nápad PDF (i obrázkové) Fine Reader otevře taktéž. Návrh pro patlala: pokud nějaká knížka není tajná, dej pokusně jednu z nich někam na ulozto.cz, já to zkusím svým ABBYY Fine Readerem 10 Professional (koupeným, to je soft, který se vyplatí) a uvidíme, co z toho vyleze.
Já ti to můžu poslat tu jednu stránku na maila...můj je sklokan1@seznam.cz...pošli jen čau a já ti na něj odpovím...
FineReader umi zpracovat i PDF. Proste provede OCR z obrazku, ulozenych v PDF.
Drivejsi verze se chovaly inteligentneji, pokud tam byl ulozeny i text, pracovalo s textem. Nyni jen provede OCR
Prohlizec obrazku a faxu - soucast Windows
Pripadne jakykoliv prohlizec obrazku (XnView, IrfanView, ...)