大多是直接提供目标的信息和大概方位文字转WAV音频