再从多个身份回归原本的身份文字转WAV音频