而是因为他们的起始点本身就很接近终点文字转WAV音频