他们就跟着按照半吊子的glp标准来文字转WAV音频