是将这个过程的每一步文字转WAV音频