能确定他们在一个区域文字转WAV音频