参与者的角度和眼光显然是独特的文字转WAV音频