我们就很难精确判断我们的位置了文字转WAV音频