最后阶段有很大一部分修士文字转WAV音频