再加上摄像头的精确视距定位文字转WAV音频