它们依旧采用提取法得到文字转WAV音频