所以还真的就很难做出来了猜测和判断文字转WAV音频