对于他说的话基本都是言听计从文字转WAV音频