能判断它们的具体位置文字转WAV音频