果然无法用常理来揣测文字转WAV音频