所以他们一定会选择一个外国人比较多的时段文字转WAV音频