但还是又针对几个镜头的前后排列方式和长度文字转WAV音频