所以他必须主动去文字转WAV音频