并不区分主角和配角文字转WAV音频