至少他问几句话的时间还是没有问题的文字转WAV音频