在这个阶段就相当于寻常人的中老年文字转WAV音频