我觉得你有些过于苛求和预先假定了文字转WAV音频