在通过系统的两次强化文字转WAV音频