也许他就是根据这些作出了一些判断和猜测文字转WAV音频