用单纯的正常逻辑似乎解释不清文字转WAV音频