自己传递意识的时候几乎没有任何的误差文字转WAV音频