大部分镜头都是在绿幕前完成的文字转WAV音频