他们只能是被动根据剧组的安排来完成工作文字转WAV音频