他们还需要花费一定的时间吸取和积累文字转WAV音频