根据它们观察反馈过来的情况最后确定一遍文字转WAV音频