准确的来说是从适应渐渐变成了依赖文字转WAV音频