虽然尚未形成统一的认知文字转WAV音频