这一部分是拍摄结束之后必须要支付文字转WAV音频