他还需要主动的表演文字转WAV音频