Přidat otázku mezi oblíbenéZasílat nové odpovědi e-mailem Porovnávací vyhledávání shodných PDF souborů

Ano máš pravdu, body 3 a 4 jsou oříšek, na který budeš muset pořídit nějaké sofistikované řešení, které zřejmě zdarma nebude.
Textova PDF:
1. budeš muset z PDF dostat text a ten někam uložit - zde se nabízí databáze, kde uložíš cestu a jméno souboru (+ další atributy) a textový obsah
2. budeš muset použít nějaký nástroj na porovnávání textu a zjistit duplicity, případně doladit, jak velký rozdíl už znamená rozdílné soubory. Vzhledem k různému způsobu zpracování a ukládání obsahu PDF to bude problém. Jednou to může být text, podruhé je diakritika dokreslována graficky atd. Takže výsledkem budou skupiny souborů, které bude muset někdo projít a určit, zda se jedná o shodné nebo ne a vybrat nejlepší verzi.
Bude to znamenat spoustu ruční práce

Grafická PDF:
Nějakým nástrojem budeš muset provést hromadně OCR.
Vzhledem k tomu, že různá grafická kvalita bude produkovat různé OCR výsledky, ve výsledku to bude ještě víc ruční práce než v předchozím bodě.
Tohle už je práce pro profesionální software, např. ABBYY Fine Reader server, kterým to proženeš a který do PDF přidá textovou vrstvu. Pak můžeš postupovat jako v předchozím bodě u textových PDF.

Reakce na odpověď

1 Zadajte svou přezdívku:
2 Napište svou odpověď:
3 Pokud chcete dostat ban, zadejte libovolný text:

Zpět do poradny