因为他不可能把全部的精力放在训练上文字转WAV音频