Neviem si prestavit algoritmus, ktory by vedel oddelit slovo od hudby automaticky. Toto moze spravit len clovek analyzou nahravky, dynamickym oznacenim frekvencnych pasiem (muzika obsadi ine ako hlas, ale v case sa to meni) a naslednym vyfiltrovanim. Toto proste automat nezvladne. Uz to oznacenie hlasu, resp jeho pasma je problematicke, pretoze v nom moze byt "sum", cize cast hudobneho podkladu a navyse ludska rec ma pomerne siroke frekvencne pasmo. A to hovorim len o reci, nie o speve.