却并没有完全统一的一个认识文字转WAV音频