而是随着对那人的观察而慢慢增加的文字转WAV音频