因为很多书院都是先确定学生文字转WAV音频