只是从双眼的间距推断文字转WAV音频