Predpokladam, ze soubor bude obsahovat většinou text a nám jde o písmena s diakritikou, takže o horní čáat ASCII tabulky (nad #127)
V ruzných znakových sadách jsou písmena s diakritikou umístěna pod různými kódy, míchají se se semigrafickými znaky apod. Takže jdou vytipovat písmena, u kterých je v jiných znakových sadách pod stejným kódem "neznak" - nějaký symbol apod.
Pak vezmu soubo a počítám tyto znaky (třeba 3 v každém kódování) a podle toho, co vyhraje, tak to beru jako detekované kódování