一次次的推理设定文字转WAV音频