更重要的也要有一个刚xing的监督机制来实现文字转WAV音频