毕竟这里只是为了训练所用文字转WAV音频