我们需要掌握他们所在位置的确切信息文字转WAV音频