因为他们同样也得跟着开口文字转WAV音频