我主要还是通过她的眼神认出她身份的文字转WAV音频