有点分辨不清到底谁是刚刚说话的那个文字转WAV音频