便也就默认了某人的行为就是文字转WAV音频