只能说是比本科生的训练时间长一点文字转WAV音频