主要是当动作熟练了文字转WAV音频