因为双方的训练完全是天壤之别文字转WAV音频