基本确定在了两个人身上文字转WAV音频