Optimální velikost souboru *.doc
Právě převádím jednu z objemných knih, kterou mám v souborech *.pdf (do textu bez dalšího nepřevoditelných), do formátu MS *.doc. Protože ty stránky jsou i s ilustracemi, rozdělil jsem původní 20MB pdf-soubor na 25-stránkové segmenty, přičemž každý z nich má cca 2 MB. Tento soubor naskenuji, přejedu OCR a vytvořím *.doc soubor opět o velikosti cca 2 MB. Uvedený postup jsem zvolil proto, abych ty texty mohl zaindexovat a fulltextově v nich vyhledávat.
Teď by mě zajímalo, jak mohu zmíněné docové soubory spojovat, aby výsledný měl optimální velikost, zejména pro účely shora uvedeného indexování (programem Archivarius 3000) a případného zobrazování (buď přímo Wordem nebo nějakým prohlížečem typu WordViever). Zatím mám subjektivní dojem, že ony 2MB soubory jsou tak akorát. Budu s nimi laborovat na strojích s procesory Pentium 4 kolem 3 GHz a pamětí ne nižší 1 GB, vše na XP (v budoucnu na Vistě).
Díky za případné odpovědi.
Ak ťa to poteší, ja som si veselo robiť s 27,7 MB súborom vo Worde a to na 800 MHz Intel. Dĺžku súboru som zistil až keď som skončil a nakoniec som ju nechal tak.
Dle mých starších zkušeností (nyní používám k plné spokojenosti OO), je 2MB pro soubory Wordu tak maximum. Pak jsou velice náchylné na poškození, což sám Word činí často, rád a s chutí. Štědré dávky nepublikovatelných nadávek jsem už vychrlil na adresu autorů Wordu, když to zničí dlouhý soubor a několik hodin práce je v haj*zlu.
//Edit: Použil bych Hlavní dokument, kde by v podstatě nebylo nic a ostatní části tam nacpal jako Vnořené dokumenty. Má to výhodu, že vnořené dokumenty zůstávají i nadále v samostatných souborech a dá se s nimi pracovat jsko s celkem.
kludne mozes nechat tie subory 2MB a co sa tyka spojovania, tak pokial viem, moze z jednoho suboru viest link na druhy subor. batw., ja mam horsiu masinu a v pohode robim s 10MB doc subormi.