1.

原始影片(必須只有一個人)

2.

人聲音頻

文字轉人聲
3.

從背景音樂和聲音中分離出人聲

4.

從影片和音頻的當前時間點開始配音