因为他们只能先控制一个或几个人文字转WAV音频