Proč tak složitě? Na tohle se používají HW střižny, jako např. Blackmagic ATEM
https://www.syntex.cz/blackmagic-design-atem-mini-pro
Jinak běžná SW postprodukční střižna umí "najít" podle zvukových stop správnou synchronizaci sama..
https://beginnersapproach.com/davinci-resolve-sync-audio-clips/