也就是用他自己最直观最客观的感觉来评判文字转WAV音频