其实这是个很正确的假设文字转WAV音频