1.
原始影片(必須只有一個人)
上載
2.
人聲音頻
文字轉人聲
錄音
上載
3.
從背景音樂和聲音中分離出人聲
4.
從影片和音頻的當前時間點開始配音
開始生成