他们都是被动参与的文字转WAV音频