所以在这个时候他的感知能力是最弱的文字转WAV音频