但他需要的只是暂时稳定文字转WAV音频