他们还是会进行取舍文字转WAV音频