从距离和位置判断来看文字转WAV音频