模型上的指引不一定是对的文字转WAV音频