看来在表演前进行文字转WAV音频