大多是他主动施为文字转WAV音频