大部分时间都几乎全盘交给了主控文字转WAV音频