所以他们一般都是用强的文字转WAV音频