但是我们首要的目标是确认目标人物的位置文字转WAV音频