但是基本的思维还是正常的文字转WAV音频