所以我们需要尽量从他嘴里多掏点情报从出来文字转WAV音频