所以他选择用数量来弥补质量上的不足文字转WAV音频