
Porovnávací vyhledávání shodných PDF souborů
Hezký den,
řeším porovnávací vyhledávání shodných PDF souborů a prosím o rady, hlavně zkušené praktiky.
Výchozí stav - řádově desítky tisíc PDF souborů v tisících složkách
Cíl - automatizovaně vyhledat a ručně odstranit duplicitní soubory podle pravidel:
1) soubory shodných názvů + shodných velikostí,
2) soubory shodných názvů + různých velikostí,
3) soubory různých názvů + různých velikostí - ALE SHODNÉHO TEXTOVÉHO OBSAHU,
4) soubory různých názvů + různých velikostí - ALE SHODNÉHO GRAFICKÉHO OBSAHU.
Po jakých programech sahnout? Vzhledem k objemu dat je nutné zpracování pokud možno co nejvíce zautomatizovatelné.
Body add 3 + 4 jsou dost tvrdým oříškem.
Snad tuto výzvu někdo přijme ... Díky předem za případnou spolupráci a pomoc!