这样的假设自然是不成功的文字转WAV音频