是一个个拍摄时顺序不一的镜头组成的文字转WAV音频