最符合条件的还是两个人文字转WAV音频