他们根本就不需要向我们一样熟悉场地之类的文字转WAV音频