当然更多的是在观察观众席上的情况文字转WAV音频