Reakce na odpověď

PDF může vznikat různými cestami. Může mít přímo vložené fonty, může mít odkaz na externí fonty a může obsahovat pouze základní fonty a diakritiku mít třeba dokreslenou graficky. Záleží to na programu, ve kterém dané PDF vznikne.

Ad grafická PDF - pokud jsou shodná, poznáš to přes srovnání velikosti, názvu, případně můžeš použít hashe, pokud chceš poznat bitově shodné dokumenty. Ale nepoznáš to už v případě, že soubor byl trochu modifikován, vytvořen 2x ze stejných obrázků různými programy apod. Obrázky jspoou do PDF vloženy jako objekty a na stránce je odkaz, kam se objekt vykreslí. Při vytváření PDF dojde k "optimalizaci" obrázků - převodu do jiného formátu, kompresi JPG atd. A na nastavení záleží jak obrázek dopadne. Pokud chceš srovnávat obsah obrázků, talk na to potřebuješ nějakou umělou inteligenci - viz google a hledání podobných obrázků. Proto se mi zdá hromadné OCR jako rozumnější přístup a bude to do budoucna využitelné i při zaindexování a fulltext hledání dokumentu

Ad textová PDF - budeš potřebovat srovnat texty a najít texty s určitou shodou obsahu. Jak velkou toleranci si pak nastavíš, bude na tobě. Na tohle programy typu DIFF PDF nepomohou. Mohl bys třeba spočítat četnost slov v dokumentech a pak jen srovnat četnosti - tím by ses poměrně jednoduše a rychle dostal ke shodnému obsahu s tím, že se velmi jednoduše dají měnit hranice. Tohle může být případ třeba různých verzí dokumentů, které projdou několika korekcemi a přitom se budou lišit na několika místech.

Porovnávací vyhledávání shodných PDF souborů