是建立在两个人相互的基础上的文字转WAV音频