毕竟按照他们的推断和筛查文字转WAV音频