第二层算是训练区域文字转WAV音频