而且虽然是估算位置文字转WAV音频