只在旁人与他说话时才回答两句文字转WAV音频