也无法通过视觉去捕捉他的动向文字转WAV音频