并不一定符合现在人的认知文字转WAV音频