所以在把人的视线拉过来后文字转WAV音频