但只从他的语气和神态分析文字转WAV音频