感觉当前有相当多论者的理论基础是文字转WAV音频