前半段的拍摄过程之中文字转WAV音频