当然这种推算完全基于他普通的实力文字转WAV音频