我们的目的是抵达底层文字转WAV音频