也就是可以控制一个人的举动文字转WAV音频