根据记忆中的路线以及位置逐渐深入文字转WAV音频