所以很难准确的判断出来文字转WAV音频