这还只是最简单的推理文字转WAV音频