又或者是以过高的标准来期待前传文字转WAV音频