但是在一些精细的水平上有些比不上文字转WAV音频