而是直接用了口述的方法文字转WAV音频