他们基本上就是在附近走走文字转WAV音频