这只是从理论上推文字转WAV音频