Přidat otázku mezi oblíbenéZasílat nové odpovědi e-mailem Porovnávací vyhledávání shodných PDF souborů

Hezký den,
řeším porovnávací vyhledávání shodných PDF souborů a prosím o rady, hlavně zkušené praktiky.
Výchozí stav - řádově desítky tisíc PDF souborů v tisících složkách
Cíl - automatizovaně vyhledat a ručně odstranit duplicitní soubory podle pravidel:
1) soubory shodných názvů + shodných velikostí,
2) soubory shodných názvů + různých velikostí,
3) soubory různých názvů + různých velikostí - ALE SHODNÉHO TEXTOVÉHO OBSAHU,
4) soubory různých názvů + různých velikostí - ALE SHODNÉHO GRAFICKÉHO OBSAHU.
Po jakých programech sahnout? Vzhledem k objemu dat je nutné zpracování pokud možno co nejvíce zautomatizovatelné.
Body add 3 + 4 jsou dost tvrdým oříškem.

Snad tuto výzvu někdo přijme ... Díky předem za případnou spolupráci a pomoc! :beer:

Odpověď na otázku

1 Zadajte svou přezdívku:
2 Napište svou odpověď:
3 Pokud chcete dostat ban, zadejte libovolný text:

Zpět do poradny