他们必须单纯文字转WAV音频