所以尽可能的还是需要突破到他们的近身文字转WAV音频