每一步都是用脚尖轻点地面文字转WAV音频