根据坐标和名词的提示文字转WAV音频