他看到的场景到是很像是在国内文字转WAV音频