所以总有个过程才能咬清楚字的发音文字转WAV音频