他就是在等待着对方说出这两个条件文字转WAV音频