他必须根据情况逐一辅助文字转WAV音频